論文の概要: Data Factory with Minimal Human Effort Using VLMs
- arxiv url: http://arxiv.org/abs/2510.05722v1
- Date: Tue, 07 Oct 2025 09:43:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.186418
- Title: Data Factory with Minimal Human Effort Using VLMs
- Title(参考訳): VLMを用いた人力最小化データファクトリ
- Authors: Jiaojiao Ye, Jiaxing Zhong, Qian Xie, Yuzhou Zhou, Niki Trigoni, Andrew Markham,
- Abstract要約: 我々は、予め訓練されたコントロールネットとビジョンランゲージモデル(VLM)を統合して、ピクセルレベルのラベルと組み合わせた合成画像を生成する。
このアプローチは手動のアノテーションの必要性を排除し、下流のタスクを大幅に改善します。
PASCAL-5i と COCO-20i は,単発セマンティックセマンティックセグメンテーションにおいて有望な性能と性能を示す。
- 参考スコア(独自算出の注目度): 35.30747487237989
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating enough and diverse data through augmentation offers an efficient solution to the time-consuming and labour-intensive process of collecting and annotating pixel-wise images. Traditional data augmentation techniques often face challenges in manipulating high-level semantic attributes, such as materials and textures. In contrast, diffusion models offer a robust alternative, by effectively utilizing text-to-image or image-to-image transformation. However, existing diffusion-based methods are either computationally expensive or compromise on performance. To address this issue, we introduce a novel training-free pipeline that integrates pretrained ControlNet and Vision-Language Models (VLMs) to generate synthetic images paired with pixel-level labels. This approach eliminates the need for manual annotations and significantly improves downstream tasks. To improve the fidelity and diversity, we add a Multi-way Prompt Generator, Mask Generator and High-quality Image Selection module. Our results on PASCAL-5i and COCO-20i present promising performance and outperform concurrent work for one-shot semantic segmentation.
- Abstract(参考訳): 拡張による十分な多種多様なデータの生成は、ピクセルワイズ画像の収集と注釈付けの時間的および労働集約的なプロセスに対する効率的なソリューションを提供する。
従来のデータ拡張技術は、材料やテクスチャといった高レベルのセマンティック属性を操作する際に、しばしば課題に直面します。
対照的に拡散モデルは、テキスト・ツー・イメージ変換やイメージ・ツー・イメージ変換を効果的に活用することで、堅牢な代替手段を提供する。
しかし、既存の拡散法は計算コストがかかるか、性能が損なわれるかのいずれかである。
この問題に対処するために,予め訓練されたコントロールネットとビジョンランゲージモデル(VLM)を統合し,画素レベルのラベルと組み合わせた合成画像を生成する,新たなトレーニングフリーパイプラインを導入する。
このアプローチは手動のアノテーションの必要性を排除し、下流のタスクを大幅に改善します。
忠実度と多様性を向上させるため,マルチウェイ・プロンプト・ジェネレータ,マスク・ジェネレータ,高品質画像選択モジュールを付加した。
PASCAL-5i と COCO-20i は,単発セマンティックセマンティックセグメンテーションにおいて有望な性能と性能を示す。
関連論文リスト
- Growing Visual Generative Capacity for Pre-Trained MLLMs [60.826355079902505]
Bridgeは純粋な自己回帰統合MLLMであり、学習済みの視覚的理解モデルを生成能力で強化する。
本稿では,コンパクトなセマンティックトークンと微細なピクセルトークンを統合するセマンティック・ツー・ピクセルの離散表現を提案する。
論文 参考訳(メタデータ) (2025-10-02T00:40:02Z) - Lavida-O: Elastic Large Masked Diffusion Models for Unified Multimodal Understanding and Generation [63.50827603618498]
マルチモーダル理解と生成のための統一型マスク付き拡散モデル(MDM)であるLavida-Oを提案する。
Lavida-Oは、画像レベルの理解、オブジェクトのグラウンド化、画像編集、高解像度のテキスト・ツー・イメージ合成を可能にする単一のフレームワークを提供する。
Lavida-Oは、RefCOCOオブジェクトグラウンド、GenEvalテキスト画像生成、ImgEdit画像編集など、幅広いベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-09-23T17:05:46Z) - MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer [90.72238747690972]
マルチモーダルな大規模言語モデルのためのシンプルでスケーラブルな統合フレームワークであるManzanoを紹介します。
単一の視覚エンコーダは、画像からテキストへの理解のための連続的な埋め込みを生成する2つのアダプタと、テキストから画像への生成のための離散トークンを提供する。
統合自己回帰LDMはテキストと画像トークンの形式で高レベルのセマンティクスを予測し、補助拡散デコーダで画像トークンをピクセルに変換する。
論文 参考訳(メタデータ) (2025-09-19T17:58:00Z) - Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.57727062920458]
本稿では,非自己回帰型マスク画像モデリング(MIM)をSDXLのような最先端拡散モデルに匹敵するレベルまで高めるMeissonicを提案する。
高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いる。
我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文 参考訳(メタデータ) (2024-10-10T17:59:17Z) - DALDA: Data Augmentation Leveraging Diffusion Model and LLM with Adaptive Guidance Scaling [6.7206291284535125]
大規模言語モデル(LLM)と拡散モデル(DM)を利用した効果的なデータ拡張フレームワークを提案する。
提案手法は,合成画像の多様性を増大させる問題に対処する。
本手法は, 目標分布の付着性を維持しつつ, 多様性を向上した合成画像を生成する。
論文 参考訳(メタデータ) (2024-09-25T14:02:43Z) - Synth$^2$: Boosting Visual-Language Models with Synthetic Captions and Image Embeddings [16.28853186016663]
効率的な視覚言語モデル(VLM)トレーニングのための合成画像テキストペアを作成する。
本手法では,LLMが生成したキャプションから画像埋め込みを合成するために,事前訓練されたテキスト・ツー・イメージモデルを用いる。
我々のVLMは、人工的なデータに基づいて微調整され、人間に注釈付けされたデータにのみ訓練されたモデルに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2024-03-12T15:36:42Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。