論文の概要: AnySynth: Harnessing the Power of Image Synthetic Data Generation for Generalized Vision-Language Tasks
- arxiv url: http://arxiv.org/abs/2411.16749v1
- Date: Sun, 24 Nov 2024 04:49:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:35:42.095787
- Title: AnySynth: Harnessing the Power of Image Synthetic Data Generation for Generalized Vision-Language Tasks
- Title(参考訳): AnySynth: 汎用視覚言語タスクのための画像合成データ生成のパワーを損なう
- Authors: You Li, Fan Ma, Yi Yang,
- Abstract要約: 任意の種類の合成データを生成可能な統合フレームワークであるAny Synthを提案する。
我々は、Few-shot Object Detection、クロスドメインオブジェクト検出、Zero-shot Image Retrieval、Multi-modal Image Perception and Groundingなど、さまざまなタスクでフレームワークの性能を検証する。
- 参考スコア(独自算出の注目度): 23.041812897803034
- License:
- Abstract: Diffusion models have recently been employed to generate high-quality images, reducing the need for manual data collection and improving model generalization in tasks such as object detection, instance segmentation, and image perception. However, the synthetic framework is usually designed with meticulous human effort for each task due to various requirements on image layout, content, and annotation formats, restricting the application of synthetic data on more general scenarios. In this paper, we propose AnySynth, a unified framework integrating adaptable, comprehensive, and highly controllable components capable of generating an arbitrary type of synthetic data given diverse requirements. Specifically, the Task-Specific Layout Generation Module is first introduced to produce reasonable layouts for different tasks by leveraging the generation ability of large language models and layout priors of real-world images. A Uni-Controlled Image Generation Module is then developed to create high-quality synthetic images that are controllable and based on the generated layouts. In addition, user specific reference images, and style images can be incorporated into the generation to task requirements. Finally, the Task-Oriented Annotation Module offers precise and detailed annotations for the generated images across different tasks. We have validated our framework's performance across various tasks, including Few-shot Object Detection, Cross-domain Object Detection, Zero-shot Composed Image Retrieval, and Multi-modal Image Perception and Grounding. The specific data synthesized by our framework significantly improves model performance in these tasks, demonstrating the generality and effectiveness of our framework.
- Abstract(参考訳): 拡散モデルは、最近、高品質な画像を生成するために使われ、手動データ収集の必要性を減らし、オブジェクト検出、インスタンスセグメンテーション、イメージ知覚といったタスクにおけるモデルの一般化を改善している。
しかしながら、合成フレームワークは通常、画像レイアウト、コンテンツ、アノテーションフォーマットに関する様々な要件のために、各タスクに対して細心の注意を払って設計され、より一般的なシナリオへの合成データの適用を制限する。
本稿では,AnySynthを提案する。AnySynthは適応性,包括性,高度に制御可能なコンポーネントを統合し,多様な要求を満たす任意の種類の合成データを生成できる統合フレームワークである。
特に、タスク特化レイアウト生成モジュールは、大規模な言語モデルの生成能力と実世界の画像のレイアウト先行を活用することで、さまざまなタスクに対して適切なレイアウトを生成するために最初に導入された。
その後、Uni-Controlled Image Generation Moduleが開発され、生成したレイアウトに基づいて制御可能な高品質な合成画像を生成する。
さらに、ユーザ固有の参照イメージやスタイルイメージを生成に組み込んでタスク要件を指定できる。
最後に、Task-Oriented Annotation Moduleは、異なるタスク間で生成された画像に対して、正確で詳細なアノテーションを提供する。
我々は,Few-shot Object Detection, Cross-domain Object Detection, Zero-shot Composed Image Retrieval, Multi-modal Image Perception and Groundingなど,様々なタスクでフレームワークの性能を検証する。
フレームワークによって合成された具体的なデータは,これらのタスクにおけるモデル性能を著しく向上させ,フレームワークの汎用性と有効性を示す。
関連論文リスト
- Many-to-many Image Generation with Auto-regressive Diffusion Models [59.5041405824704]
本稿では,与えられた画像集合から関連画像系列を生成可能な多対多画像生成のためのドメイン汎用フレームワークを提案する。
我々は,25個の相互接続された画像を含む12Mの合成マルチイメージサンプルを含む,新しい大規模マルチイメージデータセットMISを提案する。
我々はM2Mを学習し、M2Mは多対多生成のための自己回帰モデルであり、各画像は拡散フレームワーク内でモデル化される。
論文 参考訳(メタデータ) (2024-04-03T23:20:40Z) - Instruct-Imagen: Image Generation with Multi-modal Instruction [90.04481955523514]
Instruct-imagenは、不均一な画像生成タスクに取り組み、目に見えないタスクを一般化するモデルである。
画像生成のための*multi-modal instruction*を導入する。
画像生成データセットの人間による評価では、インストラクション・イメージはドメイン内の以前のタスク固有のモデルと一致するか、超えている。
論文 参考訳(メタデータ) (2024-01-03T19:31:58Z) - InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists [66.85125112199898]
我々は,タスク固有の設計選択を抽象化する,コンピュータビジョンタスクのための統一言語インタフェースを開発する。
InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能する。
論文 参考訳(メタデータ) (2023-09-30T14:26:43Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - Composer: Creative and Controllable Image Synthesis with Composable
Conditions [57.78533372393828]
ビッグデータで学んだ最近の大規模な生成モデルは、驚くべき画像を合成できるが、制御性は限られている。
この研究は、合成品質とモデルの創造性を維持しつつ、空間配置やパレットのような出力画像の柔軟な制御を可能にする新しい世代パラダイムを提供する。
論文 参考訳(メタデータ) (2023-02-20T05:48:41Z) - Transframer: Arbitrary Frame Prediction with Generative Models [21.322137081404904]
本稿では,確率的フレーム予測に基づく画像モデリングと視覚タスクのための汎用フレームワークを提案する。
このフレームワークをTransframerと呼ぶアーキテクチャと組み合わせて、U-NetとTransformerコンポーネントを使ってアノテーション付きコンテキストフレームを条件付けします。
論文 参考訳(メタデータ) (2022-03-17T17:48:32Z) - Collaging Class-specific GANs for Semantic Image Synthesis [68.87294033259417]
本稿では,高分解能なセマンティック画像合成のための新しい手法を提案する。
1つのベースイメージジェネレータと複数のクラス固有のジェネレータで構成される。
実験により,本手法は高解像度で高品質な画像を生成することができることが示された。
論文 参考訳(メタデータ) (2021-10-08T17:46:56Z) - DocSynth: A Layout Guided Approach for Controllable Document Image
Synthesis [16.284895792639137]
本稿では,Doc Synthと呼ばれる新しい手法を用いて,所定のレイアウトに基づいて文書画像を自動的に合成する手法を提案する。
本研究では,ユーザによる参照として空間的レイアウト(オブジェクトカテゴリ付きバウンディングボックス)を考慮し,提案するDoc Synthモデルを用いて,現実的な文書画像の集合を生成する。
その結果,本モデルでは,複数のオブジェクトを用いて,現実的かつ多様な文書画像を生成することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-07-06T14:24:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。