論文の概要: Unified Text-Image Generation with Weakness-Targeted Post-Training
- arxiv url: http://arxiv.org/abs/2601.04339v1
- Date: Wed, 07 Jan 2026 19:19:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.883339
- Title: Unified Text-Image Generation with Weakness-Targeted Post-Training
- Title(参考訳): 弱みを目標としたポストトレーニングによる統一テキスト画像生成
- Authors: Jiahui Chen, Philippe Hansen-Estruch, Xiaochuang Han, Yushi Hu, Emily Dinan, Amita Kamath, Michal Drozdzal, Reyhane Askari-Hemmat, Luke Zettlemoyer, Marjan Ghazvininejad,
- Abstract要約: テキストと画像を共同で生成する統一マルチモーダル生成アーキテクチャは、最近、テキスト・ツー・イメージ(T2I)合成の有望な方向として登場した。
この研究は、モデルがテキスト推論から視覚合成へ自律的に遷移する、完全に統一されたテキスト画像生成を実現するためのポストトレーニングを探求する。
- 参考スコア(独自算出の注目度): 57.956648078400775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unified multimodal generation architectures that jointly produce text and images have recently emerged as a promising direction for text-to-image (T2I) synthesis. However, many existing systems rely on explicit modality switching, generating reasoning text before switching manually to image generation. This separate, sequential inference process limits cross-modal coupling and prohibits automatic multimodal generation. This work explores post-training to achieve fully unified text-image generation, where models autonomously transition from textual reasoning to visual synthesis within a single inference process. We examine the impact of joint text-image generation on T2I performance and the relative importance of each modality during post-training. We additionally explore different post-training data strategies, showing that a targeted dataset addressing specific limitations achieves superior results compared to broad image-caption corpora or benchmark-aligned data. Using offline, reward-weighted post-training with fully self-generated synthetic data, our approach enables improvements in multimodal image generation across four diverse T2I benchmarks, demonstrating the effectiveness of reward-weighting both modalities and strategically designed post-training data.
- Abstract(参考訳): テキストと画像を共同で生成する統一マルチモーダル生成アーキテクチャは、最近、テキスト・ツー・イメージ(T2I)合成の有望な方向として登場した。
しかし、多くの既存のシステムは明示的なモダリティスイッチングに依存しており、手動で画像生成に切り替える前に推論テキストを生成する。
この分離されたシーケンシャル推論プロセスは、クロスモーダル結合を制限し、自動マルチモーダル生成を禁止している。
この研究は、モデルが単一の推論プロセス内で、テキスト推論から視覚合成へ自律的に遷移する、完全に統一されたテキスト画像生成を実現するためのポストトレーニングを探求する。
共同画像生成がT2I性能に及ぼす影響と後学習における各モダリティの相対的重要性について検討した。
さらに、トレーニング後のさまざまなデータ戦略についても検討し、特定の制限に対処するターゲットデータセットが、広範な画像キャプチャコーパスやベンチマーク整合データよりも優れた結果が得られることを示した。
完全自己生成合成データを用いたオフライン・報酬重み付きポストトレーニングを用いて、4つの異なるT2Iベンチマークにおけるマルチモーダル画像生成の改善を実現し、モダリティと戦略的に設計されたポストトレーニングデータの両方の報酬重み付けの有効性を実証した。
関連論文リスト
- Exploring a Unified Vision-Centric Contrastive Alternatives on Multi-Modal Web Documents [99.62178668680578]
本稿では,単一の視覚変換器を用いてテキスト,画像,それらの組み合わせをモデル化する統合フレームワークであるビジョン中心コントラスト学習(VC2L)を提案する。
VC2Lは完全にピクセル空間で動作し、テキスト、ビジュアル、または組み合わせのいずれでも、すべての入力を画像として描画する。
ウェブ文書における複雑なクロスモーダル関係を捉えるため、VC2Lは連続するマルチモーダルセグメントを整列するスニペットレベルのコントラスト学習目標を採用している。
論文 参考訳(メタデータ) (2025-10-21T14:59:29Z) - Interleaving Reasoning for Better Text-to-Image Generation [83.69082794730664]
テキストベース思考と画像合成を交互に行うIRG(Interleaving Reasoning Generation)を提案する。
IRGを効果的に訓練するために,2つのサブゴールをターゲットにしたIRGL(Interleaving Reasoning Generation Learning)を提案する。
実験の結果、SoTAの性能はGenEval, WISE, TIIF, GenAI-Bench, OneIG-ENで5~10ポイント向上した。
論文 参考訳(メタデータ) (2025-09-08T17:56:23Z) - End-to-end Training for Text-to-Image Synthesis using Dual-Text Embeddings [5.217870815854702]
本研究では,テキスト・ツー・イメージ合成ネットワークに適したテキスト埋め込み学習手法について検討する。
生成的およびコントラスト的なトレーニングを組み合わせることで、生成画像の写実性を高めるために最適化された2つの埋め込みと、テキストと画像のアライメントをキャプチャする2つの埋め込みを利用する。
3つのテキスト・ツー・イメージ・ベンチマーク・データセットに対する総合的な実験により、2つの別々の埋め込みが共有テキストを使用するよりも優れた結果をもたらすことが明らかとなり、差別的アプローチを用いて訓練された事前学習されたテキストエンコーダのテキスト表現を使用する手法と比較して、そのようなアプローチが好適に機能することが確認された。
論文 参考訳(メタデータ) (2025-02-03T16:40:47Z) - A Framework For Image Synthesis Using Supervised Contrastive Learning [14.016543383212706]
テキスト・ツー・イメージ(T2I)生成は、テキスト記述に対応する現実的な画像を作成することを目的としている。
本稿では,ラベルガイド付き教師付きコントラスト学習による内部モーダル対応と内部モーダル対応の両面を活用したフレームワークを提案する。
我々は、単一オブジェクトデータセットCUBと多オブジェクトデータセットCOCOの2つの新しいT2I GANのフレームワークを実証する。
論文 参考訳(メタデータ) (2024-12-05T08:15:37Z) - Contextualized Diffusion Models for Text-Guided Image and Video Generation [67.69171154637172]
条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。
本研究では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルコンテキストを組み込むことにより,コンテキスト拡散モデル(ContextDiff)を提案する。
理論的導出を伴うDDPMとDDIMの両方にモデルを一般化し、テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において、モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-26T15:01:16Z) - UNIMO-G: Unified Image Generation through Multimodal Conditional Diffusion [36.06457895469353]
UNIMO-Gは条件付き拡散フレームワークであり、インターリーブされたテキストと視覚入力を持つマルチモーダルプロンプトで動作する。
テキスト・ツー・イメージ生成とゼロショット・テーマ駆動合成の両面で優れている。
論文 参考訳(メタデータ) (2024-01-24T11:36:44Z) - ERNIE-ViLG: Unified Generative Pre-training for Bidirectional
Vision-Language Generation [22.47279425592133]
ERNIE-ViLGは,双方向画像テキスト生成のための統合型事前学習フレームワークである。
テキスト・ツー・イメージ生成プロセスにおいて,視覚的シーケンス生成器と画像再構成器を協調的に学習するエンドツーエンド・トレーニング手法を提案する。
我々は,1億4500万(中国語)の画像テキストペアからなる大規模データセット上で,10ビリオンパラメータERNIE-ViLGモデルをトレーニングする。
論文 参考訳(メタデータ) (2021-12-31T03:53:33Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。