論文の概要: EchoGen: Cycle-Consistent Learning for Unified Layout-Image Generation and Understanding
- arxiv url: http://arxiv.org/abs/2603.18001v1
- Date: Wed, 18 Mar 2026 17:59:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.87542
- Title: EchoGen: Cycle-Consistent Learning for Unified Layout-Image Generation and Understanding
- Title(参考訳): EchoGen: 統一レイアウト画像生成と理解のためのサイクル一貫性学習
- Authors: Kai Zou, Hongbo Liu, Dian Zheng, Jianxiong Gao, Zhiwei Zhao, Bin Liu,
- Abstract要約: EchoGenはレイアウト・ツー・イメージ生成と画像グラウンドのための統合されたフレームワークである。
画像グラウンドには強いテキストとレイアウト理解能力があり、レイアウト・ツー・イメージ生成の限界を補うことができる。
レイアウトから生成された画像は、内容の多様性が高く、画像グラウンド化の堅牢性を高める。
- 参考スコア(独自算出の注目度): 21.73510227758125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present EchoGen, a unified framework for layout-to-image generation and image grounding, capable of generating images with accurate layouts and high fidelity to text descriptions (e.g., spatial relationships), while grounding the image robustly at the same time. We believe that image grounding possesses strong text and layout understanding abilities, which can compensate for the corresponding limitations in layout-to-image generation. At the same time, images generated from layouts exhibit high diversity in content, thereby enhancing the robustness of image grounding. Jointly training both tasks within a unified model can promote performance improvements for each. However, we identify that this joint training paradigm encounters several optimization challenges and results in restricted performance. To address these issues, we propose progressive training strategies. First, the Parallel Multi-Task Pre-training (PMTP) stage equips the model with basic abilities for both tasks, leveraging shared tokens to accelerate training. Next, the Dual Joint Optimization (DJO) stage exploits task duality to sequentially integrate the two tasks, enabling unified optimization. Finally, the Cycle RL stage eliminates reliance on visual supervision by using consistency constraints as rewards, significantly enhancing the model's unified capabilities via the GRPO strategy. Extensive experiments demonstrate state-of-the-art results on both layout-to-image generation and image grounding benchmarks, and reveal clear synergistic gains from optimizing the two tasks together.
- Abstract(参考訳): 本研究では,正確なレイアウトとテキスト記述(例えば空間的関係)に対する忠実度の高い画像を生成すると同時に,画像を強固にグラウンド化できる,レイアウト・ツー・イメージ生成と画像グラウンド化のための統一的なフレームワークであるEchoGenを提案する。
画像グラウンドディングには強いテキストとレイアウト理解能力があり、レイアウト・ツー・イメージ生成の限界を補うことができると考えている。
同時に、レイアウトから生成された画像は内容の多様性が高く、画像グラウンド化の堅牢性を高める。
統合モデル内で両方のタスクを共同でトレーニングすることで、それぞれのパフォーマンス向上を促進することができる。
しかし、この共同学習パラダイムはいくつかの最適化課題に遭遇し、結果として性能が制限される。
これらの課題に対処するため,先進的なトレーニング戦略を提案する。
まず、Parallel Multi-Task Pre-Turning(PMTP)ステージは、両方のタスクに基本的な能力を持たせ、共有トークンを活用してトレーニングを加速する。
次に、デュアルジョイント・オプティマイゼーション(DJO)ステージは2つのタスクを逐次統合するためにタスク双対性を利用する。
最後に、Cycle RLステージは、一貫性の制約を報酬として使用することにより、視覚的監督への依存を排除し、GRPO戦略を通じてモデルの統一能力を著しく向上させる。
大規模な実験では、レイアウト・ツー・イメージの生成と画像グラウンドのベンチマークの両方について最先端の結果を示し、この2つのタスクを同時に最適化することで、相乗効果が明らかになる。
関連論文リスト
- Interleaving Reasoning for Better Text-to-Image Generation [83.69082794730664]
テキストベース思考と画像合成を交互に行うIRG(Interleaving Reasoning Generation)を提案する。
IRGを効果的に訓練するために,2つのサブゴールをターゲットにしたIRGL(Interleaving Reasoning Generation Learning)を提案する。
実験の結果、SoTAの性能はGenEval, WISE, TIIF, GenAI-Bench, OneIG-ENで5~10ポイント向上した。
論文 参考訳(メタデータ) (2025-09-08T17:56:23Z) - MENTOR: Efficient Multimodal-Conditioned Tuning for Autoregressive Vision Generation Models [30.494968865008513]
最近のテキスト・ツー・イメージモデルは、正確な視覚制御、マルチモーダル入力のバランス、複雑な画像生成のための広範な訓練を必要とする。
自己回帰型マルチモーダル画像生成のための効率的なマルチモーダルコンディショニングのための新しいフレームワークであるMENTORを提案する。
本手法は,拡散法に比べて画像再構成精度,タスク適応性,トレーニング効率の向上を実現している。
論文 参考訳(メタデータ) (2025-07-13T10:52:59Z) - Policy Optimized Text-to-Image Pipeline Design [73.9633527029941]
本稿では,テキスト・ツー・イメージ生成のための新しい強化学習フレームワークを提案する。
提案手法は、まず、画像品質のスコアをインタプリタ-ワークフローの組み合わせから直接予測できる報奨モデルのアンサンブルを訓練する。
次に、最初の語彙学習とGRPOに基づく最適化という2段階のトレーニング戦略を実装した。
論文 参考訳(メタデータ) (2025-05-27T17:50:47Z) - Unified Autoregressive Visual Generation and Understanding with Continuous Tokens [52.21981295470491]
We present UniFluid, a unified autoregressive framework for joint visual generation and understanding。
我々の統合自己回帰アーキテクチャはマルチモーダル画像とテキスト入力を処理し、テキストの離散トークンと画像の連続トークンを生成する。
画像生成と理解タスクの間には本質的にトレードオフがあることに気付きましたが、注意深く調整されたトレーニングレシピによって互いに改善できるようになりました。
論文 参考訳(メタデータ) (2025-03-17T17:58:30Z) - Towards Enhanced Image Generation Via Multi-modal Chain of Thought in Unified Generative Models [52.84391764467939]
統一生成モデルは、テキストおよび画像生成において顕著な性能を示した。
複雑な画像生成の課題に対処するために、思考の連鎖(CoT)を統一生成モデルに導入する。
実験により、FoXは様々なT2Iベンチマークで既存の統一モデルよりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-03-03T08:36:16Z) - SpotActor: Training-Free Layout-Controlled Consistent Image Generation [43.2870588035256]
双対セマンティックラテント空間における最適化による二元エネルギー誘導の新しい形式化を提案する。
本研究では,レイアウト条件付き後方更新ステージと一貫した前方サンプリングステージを備えたトレーニングフリーパイプラインSpotActorを提案する。
その結果、SpotActorはこのタスクの期待を達成し、実用的な応用の可能性を示した。
論文 参考訳(メタデータ) (2024-09-07T11:52:48Z) - A Generative Adversarial Framework for Optimizing Image Matting and
Harmonization Simultaneously [7.541357996797061]
本稿では,自己注意識別器をベースとしたマッチングネットワークと調和ネットワークを最適化するGAN(Generative Adversarial)フレームワークを提案する。
私たちのデータセットとデータセット生成パイプラインは、urlhttps://git.io/HaMaGANで確認できます。
論文 参考訳(メタデータ) (2021-08-13T06:48:14Z) - LT-GAN: Self-Supervised GAN with Latent Transformation Detection [10.405721171353195]
画像の生成品質と多様性を改善するための自己教師付きアプローチ(LT-GAN)を提案する。
我々は,提案するLT-GANが,他の最先端のトレーニング技術と効果的に組み合わせて,付加的なメリットを享受できることを実験的に実証した。
論文 参考訳(メタデータ) (2020-10-19T22:09:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。