論文の概要: AnySynth: Harnessing the Power of Image Synthetic Data Generation for Generalized Vision-Language Tasks
- arxiv url: http://arxiv.org/abs/2411.16749v2
- Date: Mon, 02 Dec 2024 04:05:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-03 20:22:32.900249
- Title: AnySynth: Harnessing the Power of Image Synthetic Data Generation for Generalized Vision-Language Tasks
- Title(参考訳): AnySynth: 汎用視覚言語タスクのための画像合成データ生成のパワーを損なう
- Authors: You Li, Fan Ma, Yi Yang,
- Abstract要約: 任意の種類の合成データを生成可能な統合フレームワークであるAny Synthを提案する。
我々は、Few-shot Object Detection、クロスドメインオブジェクト検出、Zero-shot Image Retrieval、Multi-modal Image Perception and Groundingなど、さまざまなタスクでフレームワークの性能を検証する。
- 参考スコア(独自算出の注目度): 23.041812897803034
- License:
- Abstract: Diffusion models have recently been employed to generate high-quality images, reducing the need for manual data collection and improving model generalization in tasks such as object detection, instance segmentation, and image perception. However, the synthetic framework is usually designed with meticulous human effort for each task due to various requirements on image layout, content, and annotation formats, restricting the application of synthetic data on more general scenarios. In this paper, we propose AnySynth, a unified framework integrating adaptable, comprehensive, and highly controllable components capable of generating an arbitrary type of synthetic data given diverse requirements. Specifically, the Task-Specific Layout Generation Module is first introduced to produce reasonable layouts for different tasks by leveraging the generation ability of large language models and layout priors of real-world images. A Uni-Controlled Image Generation Module is then developed to create high-quality synthetic images that are controllable and based on the generated layouts. In addition, user specific reference images, and style images can be incorporated into the generation to task requirements. Finally, the Task-Oriented Annotation Module offers precise and detailed annotations for the generated images across different tasks. We have validated our framework's performance across various tasks, including Few-shot Object Detection, Cross-domain Object Detection, Zero-shot Composed Image Retrieval, and Multi-modal Image Perception and Grounding. The specific data synthesized by our framework significantly improves model performance in these tasks, demonstrating the generality and effectiveness of our framework.
- Abstract(参考訳): 拡散モデルは、最近、高品質な画像を生成するために使われ、手動データ収集の必要性を減らし、オブジェクト検出、インスタンスセグメンテーション、イメージ知覚といったタスクにおけるモデルの一般化を改善している。
しかしながら、合成フレームワークは通常、画像レイアウト、コンテンツ、アノテーションフォーマットに関する様々な要件のために、各タスクに対して細心の注意を払って設計され、より一般的なシナリオへの合成データの適用を制限する。
本稿では,AnySynthを提案する。AnySynthは適応性,包括性,高度に制御可能なコンポーネントを統合し,多様な要求を満たす任意の種類の合成データを生成できる統合フレームワークである。
特に、タスク特化レイアウト生成モジュールは、大規模な言語モデルの生成能力と実世界の画像のレイアウト先行を活用することで、さまざまなタスクに対して適切なレイアウトを生成するために最初に導入された。
その後、Uni-Controlled Image Generation Moduleが開発され、生成したレイアウトに基づいて制御可能な高品質な合成画像を生成する。
さらに、ユーザ固有の参照イメージやスタイルイメージを生成に組み込んでタスク要件を指定できる。
最後に、Task-Oriented Annotation Moduleは、異なるタスク間で生成された画像に対して、正確で詳細なアノテーションを提供する。
我々は,Few-shot Object Detection, Cross-domain Object Detection, Zero-shot Composed Image Retrieval, Multi-modal Image Perception and Groundingなど,様々なタスクでフレームワークの性能を検証する。
フレームワークによって合成された具体的なデータは,これらのタスクにおけるモデル性能を著しく向上させ,フレームワークの汎用性と有効性を示す。
関連論文リスト
- EditAR: Unified Conditional Generation with Autoregressive Models [58.093860528672735]
本稿では,条件付き画像生成タスクのための単一の統合自己回帰フレームワークであるEditARを提案する。
このモデルは、画像と命令の両方を入力として取り、バニラの次のパラダイムで編集された画像トークンを予測する。
確立されたベンチマークにおいて,様々なタスクにまたがる実効性を評価し,様々なタスク固有の手法に対する競争性能を示す。
論文 参考訳(メタデータ) (2025-01-08T18:59:35Z) - Unbiased General Annotated Dataset Generation [62.04202037186855]
偏りのない一般的な注釈付きデータセット生成フレームワーク(ubGen)を提案する。
本稿では,言語によって定義された非バイアスのセマンティック空間における画像の整合性の観点から,マルチモーダル基盤モデル(例えばCLIP)の利点を活用することを提案する。
実験結果から,手動ラベル付きデータセットや他の合成データセットと比較して,生成した非バイアスデータセットの利用により,一般化能力の安定が図られた。
論文 参考訳(メタデータ) (2024-12-14T13:28:40Z) - Instruct-Imagen: Image Generation with Multi-modal Instruction [90.04481955523514]
Instruct-imagenは、不均一な画像生成タスクに取り組み、目に見えないタスクを一般化するモデルである。
画像生成のための*multi-modal instruction*を導入する。
画像生成データセットの人間による評価では、インストラクション・イメージはドメイン内の以前のタスク固有のモデルと一致するか、超えている。
論文 参考訳(メタデータ) (2024-01-03T19:31:58Z) - InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists [66.85125112199898]
我々は,タスク固有の設計選択を抽象化する,コンピュータビジョンタスクのための統一言語インタフェースを開発する。
InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能する。
論文 参考訳(メタデータ) (2023-09-30T14:26:43Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - Composer: Creative and Controllable Image Synthesis with Composable
Conditions [57.78533372393828]
ビッグデータで学んだ最近の大規模な生成モデルは、驚くべき画像を合成できるが、制御性は限られている。
この研究は、合成品質とモデルの創造性を維持しつつ、空間配置やパレットのような出力画像の柔軟な制御を可能にする新しい世代パラダイムを提供する。
論文 参考訳(メタデータ) (2023-02-20T05:48:41Z) - Transframer: Arbitrary Frame Prediction with Generative Models [21.322137081404904]
本稿では,確率的フレーム予測に基づく画像モデリングと視覚タスクのための汎用フレームワークを提案する。
このフレームワークをTransframerと呼ぶアーキテクチャと組み合わせて、U-NetとTransformerコンポーネントを使ってアノテーション付きコンテキストフレームを条件付けします。
論文 参考訳(メタデータ) (2022-03-17T17:48:32Z) - DocSynth: A Layout Guided Approach for Controllable Document Image
Synthesis [16.284895792639137]
本稿では,Doc Synthと呼ばれる新しい手法を用いて,所定のレイアウトに基づいて文書画像を自動的に合成する手法を提案する。
本研究では,ユーザによる参照として空間的レイアウト(オブジェクトカテゴリ付きバウンディングボックス)を考慮し,提案するDoc Synthモデルを用いて,現実的な文書画像の集合を生成する。
その結果,本モデルでは,複数のオブジェクトを用いて,現実的かつ多様な文書画像を生成することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-07-06T14:24:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。