論文の概要: CoLoGen: Progressive Learning of Concept-Localization Duality for Unified Image Generation
- arxiv url: http://arxiv.org/abs/2602.22150v2
- Date: Thu, 26 Feb 2026 06:25:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 14:31:24.114056
- Title: CoLoGen: Progressive Learning of Concept-Localization Duality for Unified Image Generation
- Title(参考訳): CoLoGen: 統一画像生成のための概念ローカライズダリティの進歩的学習
- Authors: YuXin Song, Yu Lu, Haoyuan Sun, Huanjin Yao, Fanglong Liu, Yifan Sun, Haocheng Feng, Hang Zhou, Jingdong Wang,
- Abstract要約: CoLoGenは、コンセプト-ローカライゼーションの双対性を徐々に学習し、調整する統合拡散フレームワークである。
CoLoGenは、まずコア概念とローカライゼーション能力を構築し、次に様々な視覚条件に適応し、最終的に複雑な命令駆動タスクのためのシナジーを洗練するステージドカリキュラムを使用している。
編集、制御可能な生成、カスタマイズされた生成の実験は、CoLoGenが競争力や優れたパフォーマンスを達成することを示す。
- 参考スコア(独自算出の注目度): 55.409963941827044
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Unified conditional image generation remains difficult because different tasks depend on fundamentally different internal representations. Some require conceptual understanding for semantic synthesis, while others rely on localization cues for spatial precision. Forcing these heterogeneous tasks to share a single representation leads to concept-localization representational conflict. To address this issue, we propose CoLoGen, a unified diffusion framework that progressively learns and reconciles this concept-localization duality. CoLoGen uses a staged curriculum that first builds core conceptual and localization abilities, then adapts them to diverse visual conditions, and finally refines their synergy for complex instruction-driven tasks. Central to this process is the Progressive Representation Weaving (PRW) module, which dynamically routes features to specialized experts and stably integrates their outputs across stages. Experiments on editing, controllable generation, and customized generation show that CoLoGen achieves competitive or superior performance, offering a principled representational perspective for unified image generation.
- Abstract(参考訳): 異なるタスクは基本的に異なる内部表現に依存するため、統一された条件付き画像生成は依然として困難である。
意味合成には概念的理解を必要とするものもあれば、空間的精度には局所化の手がかりに依存するものもある。
これらの不均一なタスクを1つの表現で共有させることは、概念的局所化表現の衝突につながる。
この問題に対処するため、我々は、この概念の局所化双対性を徐々に学習し、調整する統合拡散フレームワークであるCoLoGenを提案する。
CoLoGenは、まずコア概念とローカライゼーション能力を構築し、次に様々な視覚条件に適応し、最終的に複雑な命令駆動タスクのためのシナジーを洗練するステージドカリキュラムを使用している。
このプロセスの中心にあるのはProgressive Representation Weaving (PRW)モジュールである。
編集、制御可能な生成、カスタマイズされた生成の実験は、CoLoGenが競争力または優れた性能を達成し、統一された画像生成のための原則化された表現的視点を提供することを示している。
関連論文リスト
- UniReason 1.0: A Unified Reasoning Framework for World Knowledge Aligned Image Generation and Editing [44.071171929398076]
マルチモーダルモデルは、しばしば深い推論を必要とする複雑な合成タスクに苦しむ。
画像生成と画像編集を調和させる統一フレームワークUniReasonを提案する。
我々は,大規模推論中心のデータセットを体系的に構築することで,このフレームワークをサポートする。
論文 参考訳(メタデータ) (2026-02-02T18:34:35Z) - HiCoGen: Hierarchical Compositional Text-to-Image Generation in Diffusion Models via Reinforcement Learning [66.99487505369254]
HiCoGenは、新しいChain of Synthesisパラダイムに基づいて構築されている。
複雑なプロンプトを最小の意味単位に分解する。
その後、これらのユニットを反復的に合成し、各ステップで生成された画像が次に重要な視覚的コンテキストを提供する。
実験により,提案手法は概念カバレッジと構成精度の両方において,既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-11-25T06:24:25Z) - Ming-UniVision: Joint Image Understanding and Generation with a Unified Continuous Tokenizer [50.69959748410398]
我々は,自己回帰生成と理解を統一するための連続的な潜在空間を持つ新しい視覚トークンのファミリーであるMingTokを紹介する。
MingTokは低レベルエンコーディング、セマンティック拡張、視覚再構成を含む3段階のシーケンシャルアーキテクチャを採用している。
この上に構築されたMing-UniVisionは、タスク固有の視覚表現の必要性を排除し、単一の自己回帰予測パラダイムの下で多様な視覚言語タスクを統一する。
論文 参考訳(メタデータ) (2025-10-08T02:50:14Z) - Neural Scene Designer: Self-Styled Semantic Image Manipulation [67.43125248646653]
我々は,ユーザが指定したシーン領域のリアルな写真操作を可能にする新しいフレームワークであるNeural Scene Designer (NSD)を紹介した。
NSDは、ユーザ意図とのセマンティックアライメントと、周辺環境とのスタイリスティックな整合性の両方を保証する。
細かなスタイル表現を捉えるために,プログレッシブ・セルフスタイル表現学習(PSRL)モジュールを提案する。
論文 参考訳(メタデータ) (2025-09-01T11:59:03Z) - Subject-Consistent and Pose-Diverse Text-to-Image Generation [36.67159307721023]
本稿では,CoDi と呼ばれる主観的かつポーズ的T2I フレームワークを提案する。
多様なポーズとレイアウトで一貫した主題生成を可能にする。
CoDiは、すべてのメトリクスに対して、より優れた視覚的知覚とより強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-11T08:15:56Z) - Harmonizing Visual Representations for Unified Multimodal Understanding and Generation [53.01486796503091]
我々は,共有MARエンコーダによる理解と生成タスクを調和させる統合自己回帰フレームワークであるemphHarmonを提案する。
HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成する。
論文 参考訳(メタデータ) (2025-03-27T20:50:38Z) - Unified Autoregressive Visual Generation and Understanding with Continuous Tokens [52.21981295470491]
We present UniFluid, a unified autoregressive framework for joint visual generation and understanding。
我々の統合自己回帰アーキテクチャはマルチモーダル画像とテキスト入力を処理し、テキストの離散トークンと画像の連続トークンを生成する。
画像生成と理解タスクの間には本質的にトレードオフがあることに気付きましたが、注意深く調整されたトレーニングレシピによって互いに改善できるようになりました。
論文 参考訳(メタデータ) (2025-03-17T17:58:30Z) - SpotActor: Training-Free Layout-Controlled Consistent Image Generation [43.2870588035256]
双対セマンティックラテント空間における最適化による二元エネルギー誘導の新しい形式化を提案する。
本研究では,レイアウト条件付き後方更新ステージと一貫した前方サンプリングステージを備えたトレーニングフリーパイプラインSpotActorを提案する。
その結果、SpotActorはこのタスクの期待を達成し、実用的な応用の可能性を示した。
論文 参考訳(メタデータ) (2024-09-07T11:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。