論文の概要: TF-TI2I: Training-Free Text-and-Image-to-Image Generation via Multi-Modal Implicit-Context Learning in Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2503.15283v1
- Date: Wed, 19 Mar 2025 15:03:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:23:17.429256
- Title: TF-TI2I: Training-Free Text-and-Image-to-Image Generation via Multi-Modal Implicit-Context Learning in Text-to-Image Models
- Title(参考訳): TF-TI2I:テキスト・画像モデルにおけるマルチモーダル・インシシット・コンテキスト学習による学習自由なテキスト・画像・画像生成
- Authors: Teng-Fang Hsiao, Bo-Kai Ruan, Yi-Lun Wu, Tzu-Ling Lin, Hong-Han Shuai,
- Abstract要約: トレーニングフリーのテキスト・イメージ・トゥ・イメージ(TF-TI2I)は、追加のトレーニングを必要とせずに最先端のT2Iモデルに適応する。
提案手法は,様々なベンチマークにおいて堅牢な性能を示し,複雑な画像生成タスクの処理の有効性を確認した。
- 参考スコア(独自算出の注目度): 19.1659725630146
- License:
- Abstract: Text-and-Image-To-Image (TI2I), an extension of Text-To-Image (T2I), integrates image inputs with textual instructions to enhance image generation. Existing methods often partially utilize image inputs, focusing on specific elements like objects or styles, or they experience a decline in generation quality with complex, multi-image instructions. To overcome these challenges, we introduce Training-Free Text-and-Image-to-Image (TF-TI2I), which adapts cutting-edge T2I models such as SD3 without the need for additional training. Our method capitalizes on the MM-DiT architecture, in which we point out that textual tokens can implicitly learn visual information from vision tokens. We enhance this interaction by extracting a condensed visual representation from reference images, facilitating selective information sharing through Reference Contextual Masking -- this technique confines the usage of contextual tokens to instruction-relevant visual information. Additionally, our Winner-Takes-All module mitigates distribution shifts by prioritizing the most pertinent references for each vision token. Addressing the gap in TI2I evaluation, we also introduce the FG-TI2I Bench, a comprehensive benchmark tailored for TI2I and compatible with existing T2I methods. Our approach shows robust performance across various benchmarks, confirming its effectiveness in handling complex image-generation tasks.
- Abstract(参考訳): Text-and-Image-To-Image (TI2I) は、画像入力とテキスト命令を統合し、画像生成を強化する。
既存の手法では画像入力を部分的に利用し、オブジェクトやスタイルなどの特定の要素に焦点を当てたり、複雑なマルチイメージの命令で生成品質の低下を経験することが多い。
これらの課題を克服するために、SD3のような最先端のT2Iモデルに追加のトレーニングを必要とせずに適応する訓練自由テキスト・イメージ・ツー・イメージ(TF-TI2I)を導入する。
本手法はMM-DiTアーキテクチャを利用しており,テキストトークンは視覚トークンから視覚情報を暗黙的に学習することができることを指摘する。
我々は、参照画像から凝縮した視覚表現を抽出し、参照コンテキストマスキングを通じて選択的な情報共有を容易にすることにより、このインタラクションを強化する。
さらに、Winner-Takes-Allモジュールは、視覚トークンごとに最も適切な参照を優先順位付けすることで、分散シフトを緩和します。
TI2I評価のギャップに対処するため,既存のT2I手法と互換性のある総合ベンチマークであるFG-TI2I Benchを導入する。
提案手法は,様々なベンチマークにおいて堅牢な性能を示し,複雑な画像生成タスクの処理の有効性を確認した。
関連論文リスト
- End-to-end Training for Text-to-Image Synthesis using Dual-Text Embeddings [5.217870815854702]
本研究では,テキスト・ツー・イメージ合成ネットワークに適したテキスト埋め込み学習手法について検討する。
生成的およびコントラスト的なトレーニングを組み合わせることで、生成画像の写実性を高めるために最適化された2つの埋め込みと、テキストと画像のアライメントをキャプチャする2つの埋め込みを利用する。
3つのテキスト・ツー・イメージ・ベンチマーク・データセットに対する総合的な実験により、2つの別々の埋め込みが共有テキストを使用するよりも優れた結果をもたらすことが明らかとなり、差別的アプローチを用いて訓練された事前学習されたテキストエンコーダのテキスト表現を使用する手法と比較して、そのようなアプローチが好適に機能することが確認された。
論文 参考訳(メタデータ) (2025-02-03T16:40:47Z) - Text and Image Are Mutually Beneficial: Enhancing Training-Free Few-Shot Classification with CLIP [22.33658954569737]
我々は、IGT(Image-Guided-Text)コンポーネントとTGI(Text-Guided-Image)コンポーネントを導入し、相互誘導機構を構築する。
広範囲な実験により、TIMOは最先端(SOTA)トレーニングフリー法よりも著しく優れていた。
提案する改良型TIMO-Sは,最高のトレーニング要求手法を約100倍の時間コストで0.33%以上越えることが可能である。
論文 参考訳(メタデータ) (2024-12-16T02:03:45Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with
Auto-Generated Data [73.23388142296535]
SELMAは、自動生成されたマルチスキル画像テキストデータセット上での微調整モデルにより、T2Iモデルの忠実度を向上させる。
SELMAは、複数のベンチマーク上での最先端T2I拡散モデルのセマンティックアライメントとテキスト忠実性を大幅に改善することを示す。
また、SELMAを介して自動コンパイルされた画像テキストペアによる微調整は、地上の真理データによる微調整に匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-03-11T17:35:33Z) - TextCLIP: Text-Guided Face Image Generation And Manipulation Without
Adversarial Training [5.239585892767183]
本研究では,テキスト誘導画像生成と操作のための統合フレームワークであるTextCLIPを提案する。
提案手法は,テキスト誘導型生成タスクと操作タスクの両方において,既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-09-21T09:34:20Z) - TaleCrafter: Interactive Story Visualization with Multiple Characters [49.14122401339003]
本稿では,ジェネリック・インタラクティブ・ストーリー・ビジュアライゼーションシステムを提案する。
複数の新しい文字を扱うことができ、レイアウトと局所構造の編集をサポートする。
システムは、ストーリー・ツー・プロンプト・ジェネレーション(S2P)、テキスト・ツー・ジェネレーション(T2L)、制御可能なテキスト・ツー・イメージ・ジェネレーション(C-T2I)、画像・トゥ・ビデオ・アニメーション(I2V)の4つの相互接続コンポーネントからなる。
論文 参考訳(メタデータ) (2023-05-29T17:11:39Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Text to Image Generation with Semantic-Spatial Aware GAN [41.73685713621705]
テキストから画像生成(T2I)モデルは、テキスト記述と意味的に一致するフォトリアリズム画像を生成することを目的としている。
本稿では,テキストエンコーダがより良いテキスト情報を活用できるように,エンドツーエンドで訓練された新しいフレームワークSemantic-Spatial Aware GANを提案する。
論文 参考訳(メタデータ) (2021-04-01T15:48:01Z) - TIME: Text and Image Mutual-Translation Adversarial Networks [55.1298552773457]
テキストと画像相互変換対応ネットワーク(TIME)を提案する。
TIMEは、T2IジェネレータGと画像キャプション識別器Dをジェネレータネットワークフレームワークで学習する。
実験では、TIMEはCUBおよびMS-COCOデータセット上での最先端(SOTA)性能を達成する。
論文 参考訳(メタデータ) (2020-05-27T06:40:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。