論文の概要: ImageGen-CoT: Enhancing Text-to-Image In-context Learning with Chain-of-Thought Reasoning
- arxiv url: http://arxiv.org/abs/2503.19312v1
- Date: Tue, 25 Mar 2025 03:18:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:55:36.008356
- Title: ImageGen-CoT: Enhancing Text-to-Image In-context Learning with Chain-of-Thought Reasoning
- Title(参考訳): ImageGen-CoT:Chain-of-Thought Reasoningによるテキスト対画像インコンテキスト学習の強化
- Authors: Jiaqi Liao, Zhengyuan Yang, Linjie Li, Dianqi Li, Kevin Lin, Yu Cheng, Lijuan Wang,
- Abstract要約: テキスト・ツー・イメージ・インコンテキスト・ラーニング(T2I-ICL)の問題点について検討する。
本稿では、画像生成に先立って、ImageGen-CoTと呼ばれる思考プロセスを組み込んだフレームワークを提案する。
このデータセットを用いてMLLMを微調整し、文脈推論能力を向上する。
- 参考スコア(独自算出の注目度): 89.19449553099747
- License:
- Abstract: In this work, we study the problem of Text-to-Image In-Context Learning (T2I-ICL). While Unified Multimodal LLMs (MLLMs) have advanced rapidly in recent years, they struggle with contextual reasoning in T2I-ICL scenarios. To address this limitation, we propose a novel framework that incorporates a thought process called ImageGen-CoT prior to image generation. To avoid generating unstructured ineffective reasoning steps, we develop an automatic pipeline to curate a high-quality ImageGen-CoT dataset. We then fine-tune MLLMs using this dataset to enhance their contextual reasoning capabilities. To further enhance performance, we explore test-time scale-up strategies and propose a novel hybrid scaling approach. This approach first generates multiple ImageGen-CoT chains and then produces multiple images for each chain via sampling. Extensive experiments demonstrate the effectiveness of our proposed method. Notably, fine-tuning with the ImageGen-CoT dataset leads to a substantial 80\% performance gain for SEED-X on T2I-ICL tasks. See our project page at https://ImageGen-CoT.github.io/. Code and model weights will be open-sourced.
- Abstract(参考訳): 本研究では,テキスト・ツー・イメージ・インコンテキスト・ラーニング(T2I-ICL)の問題について検討する。
近年、MLLM(Unified Multimodal LLM)は急速に進歩しているが、T2I-ICLシナリオでは文脈推論に苦慮している。
この制限に対処するため、画像生成に先立って、ImageGen-CoTと呼ばれる思考プロセスを組み込んだ新しいフレームワークを提案する。
構造化されていない非効率的な推論ステップを生成するのを避けるため、高品質なImageGen-CoTデータセットをキュレートする自動パイプラインを開発する。
次に、このデータセットを使用してMLLMを微調整し、文脈推論能力を向上する。
性能をさらに向上するため,テストタイムのスケールアップ戦略を探求し,新しいハイブリッドスケーリング手法を提案する。
このアプローチはまず複数のImageGen-CoTチェーンを生成し、次にサンプリングによって各チェーンに対して複数のイメージを生成する。
実験の結果,提案手法の有効性が示された。
注目すべきなのは、ImageGen-CoTデータセットの微調整によって、T2I-ICLタスク上でのSEED-Xのパフォーマンスが約80%向上することだ。
プロジェクトページはhttps://ImageGen-CoT.github.io/にある。
コードとモデルの重み付けはオープンソースになる。
関連論文リスト
- GraPE: A Generate-Plan-Edit Framework for Compositional T2I Synthesis [10.47359822447001]
本稿では,複雑な多段階生成のタスクを3段階に分解する,T2I合成の代替パラダイムを提案する。
提案手法は,モジュール性が高く,トレーニングが自由であり,画像生成モデルと編集モデルの組み合わせに対して適用可能であるという事実から,その強みを導出する。
論文 参考訳(メタデータ) (2024-12-08T22:29:56Z) - In-Context LoRA for Diffusion Transformers [49.288489286276146]
テキスト・ツー・イメージのDiTは、チューニングなしでテキスト内生成を効果的に行うことができることを示す。
我々は、我々のモデル In-Context LoRA (IC-LoRA) を命名する。
我々のパイプラインは、プロンプトにより忠実な高忠実度画像セットを生成する。
論文 参考訳(メタデータ) (2024-10-31T09:45:00Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - Multi-modal Generation via Cross-Modal In-Context Learning [50.45304937804883]
複雑なマルチモーダルプロンプトシーケンスから新しい画像を生成するMGCC法を提案する。
我々のMGCCは、新しい画像生成、マルチモーダル対話の促進、テキスト生成など、多種多様なマルチモーダル機能を示している。
論文 参考訳(メタデータ) (2024-05-28T15:58:31Z) - L-Verse: Bidirectional Generation Between Image and Text [41.133824156046394]
L-Verseは、AugVAE(Feature-augmented Variational Autoencoder)とBiART(Bidirectional Auto-Regressive Transformer)で構成される新しいアーキテクチャである。
AugVAEは、ImageNet1Kバリデーションセットにおける最先端の再構築性能と、野生の未確認画像に対するロバスト性を示している。
L-Verseは、微調整や余分なオブジェクト検出フレームワークを使わずに、画像からテキスト、テキストから画像を生成するタスクに直接使用することができる。
論文 参考訳(メタデータ) (2021-11-22T11:48:26Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z) - XGPT: Cross-modal Generative Pre-Training for Image Captioning [80.26456233277435]
XGPTは画像キャプチャのためのクロスモーダル生成前訓練法である。
テキスト・ツー・イメージ・キャプション・ジェネレータを3つの新しい生成タスクで事前訓練するように設計されている。
XGPTはタスク固有のアーキテクチャ変更なしに微調整できる。
論文 参考訳(メタデータ) (2020-03-03T12:13:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。