論文の概要: MoGen: A Unified Collaborative Framework for Controllable Multi-Object Image Generation
- arxiv url: http://arxiv.org/abs/2601.05546v1
- Date: Fri, 09 Jan 2026 05:57:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.856071
- Title: MoGen: A Unified Collaborative Framework for Controllable Multi-Object Image Generation
- Title(参考訳): MoGen: 制御可能なマルチオブジェクト画像生成のための統一協調フレームワーク
- Authors: Yanfeng Li, Yue Sun, Keren Fu, Sio-Kei Im, Xiaoming Liu, Guangtao Zhai, Xiaohong Liu, Tao Tan,
- Abstract要約: MoGenは、ユーザフレンドリーなマルチオブジェクト画像生成方法である。
まず、言語記述中のフレーズ単位を対応する画像領域に正確に固定する地域意味アンカー(RSA)モジュールを設計する。
適応型マルチモーダルガイダンス(AMG)モジュールを導入し,マルチソース制御信号の様々な組み合わせを適応的に解析・統合する。
- 参考スコア(独自算出の注目度): 76.94658056824422
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing multi-object image generation methods face difficulties in achieving precise alignment between localized image generation regions and their corresponding semantics based on language descriptions, frequently resulting in inconsistent object quantities and attribute aliasing. To mitigate this limitation, mainstream approaches typically rely on external control signals to explicitly constrain the spatial layout, local semantic and visual attributes of images. However, this strong dependency makes the input format rigid, rendering it incompatible with the heterogeneous resource conditions of users and diverse constraint requirements. To address these challenges, we propose MoGen, a user-friendly multi-object image generation method. First, we design a Regional Semantic Anchor (RSA) module that precisely anchors phrase units in language descriptions to their corresponding image regions during the generation process, enabling text-to-image generation that follows quantity specifications for multiple objects. Building upon this foundation, we further introduce an Adaptive Multi-modal Guidance (AMG) module, which adaptively parses and integrates various combinations of multi-source control signals to formulate corresponding structured intent. This intent subsequently guides selective constraints on scene layouts and object attributes, achieving dynamic fine-grained control. Experimental results demonstrate that MoGen significantly outperforms existing methods in generation quality, quantity consistency, and fine-grained control, while exhibiting superior accessibility and control flexibility. Code is available at: https://github.com/Tear-kitty/MoGen/tree/master.
- Abstract(参考訳): 既存のマルチオブジェクト画像生成手法では、言語記述に基づく局所画像生成領域とその対応するセマンティクスの正確なアライメントを達成するのが困難であり、しばしば矛盾するオブジェクト量や属性エイリアスが発生する。
この制限を緩和するため、主流のアプローチは通常、画像の空間的レイアウト、局所的な意味、視覚的属性を明示的に制限するために外部制御信号に依存する。
しかし、この強い依存は入力フォーマットを堅固にし、ユーザの異種リソース条件や多様な制約条件と互換性のないものにします。
これらの課題に対処するため,ユーザフレンドリなマルチオブジェクト画像生成手法であるMoGenを提案する。
まず,言語記述中のフレーズ単位を対応する画像領域に正確に固定し,複数のオブジェクトの量仕様に従うテキスト・画像生成を可能にする地域意味アンカー(RSA)モジュールを設計する。
この基盤の上に、適応型マルチモーダルガイダンス(AMG)モジュールを導入し、多ソース制御信号の様々な組み合わせを適応的に解析して統合し、対応する構造化意図を定式化する。
この意図はその後、シーンレイアウトとオブジェクト属性の選択的な制約を導き、動的にきめ細かい制御を実現する。
実験結果から,MoGenは生成品質,量整合性,微粒化制御において既存の手法よりも優れ,アクセシビリティや制御の柔軟性に優れていた。
コードは、https://github.com/Tear-kitty/MoGen/tree/masterで入手できる。
関連論文リスト
- Canvas-to-Image: Compositional Image Generation with Multimodal Controls [51.44122945214702]
Canvas-to-Imageは、異種制御を単一のキャンバスインターフェースに統合する統合フレームワークである。
私たちのキーとなるアイデアは、多様な制御信号を単一の合成キャンバス画像にエンコードすることで、モデルが統合された視覚空間的推論を解釈できるようにすることです。
論文 参考訳(メタデータ) (2025-11-26T18:59:56Z) - ConsistCompose: Unified Multimodal Layout Control for Image Composition [56.909072845166264]
レイアウト座標を直接言語プロンプトに埋め込む統合フレームワークであるConsistComposeを提案する。
本研究では,ConsistComposeがレイアウト制御ベースラインよりも空間精度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-11-23T08:14:53Z) - Condition Weaving Meets Expert Modulation: Towards Universal and Controllable Image Generation [17.898556887669997]
多様な条件入力をサポートするUnified Image-to-image Generation (UniGen) フレームワークを提案する。
Condition Modulated Expert (CoMoE)モジュールは、視覚表現と条件モデリングのために意味的に類似したパッチ機能を集約する。
また,背骨からのグローバルテキストレベル制御と条件分岐からのきめ細かい制御を効果的に相互作用できる動的ヘビ様接続機構WeaveNetを提案する。
論文 参考訳(メタデータ) (2025-08-24T13:47:10Z) - ControlThinker: Unveiling Latent Semantics for Controllable Image Generation through Visual Reasoning [76.2503352325492]
ControlThinkerは、"Comprehend-then-generate"パラダイムを採用した、新しいフレームワークである。
制御画像からの潜在セマンティクスは、テキストプロンプトを豊かにするためにマイニングされる。
このリッチなセマンティック理解は、追加の複雑な修正を必要とせずに、画像生成をシームレスに支援する。
論文 参考訳(メタデータ) (2025-06-04T05:56:19Z) - UNIC-Adapter: Unified Image-instruction Adapter with Multi-modal Transformer for Image Generation [64.8341372591993]
一つのフレームワーク内で制御可能な生成を統一するための新しいアプローチを提案する。
具体的には,Multi-Modal-Diffusion Transformerアーキテクチャ上に構築された統合イメージインストラクションアダプタ(UNIC-Adapter)を提案する。
UNIC-Adapterは条件付き画像とタスク命令の両方を組み込んだマルチモーダル命令情報を効果的に抽出する。
論文 参考訳(メタデータ) (2024-12-25T15:19:02Z) - Generating Compositional Scenes via Text-to-image RGBA Instance Generation [82.63805151691024]
テキストから画像への拡散生成モデルは、退屈な急進的なエンジニアリングを犠牲にして高品質な画像を生成することができる。
本稿では, 粒度制御, 柔軟性, 相互作用性を考慮した新しい多段階生成パラダイムを提案する。
実験の結果,RGBA拡散モデルでは,オブジェクト属性を正確に制御した多種多様な高品質なインスタンスを生成できることがわかった。
論文 参考訳(メタデータ) (2024-11-16T23:44:14Z) - OmniBooth: Learning Latent Control for Image Synthesis with Multi-modal Instruction [32.08995899903304]
我々は,インスタンスレベルのマルチモーダルカスタマイズによる空間制御を実現する画像生成フレームワークOmniBoothを提案する。
提案手法は,テキスト・画像生成の範囲を大きく拡大し,より汎用的で実用的な制御性に拡張する。
論文 参考訳(メタデータ) (2024-10-07T11:26:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。