論文の概要: MEPG:Multi-Expert Planning and Generation for Compositionally-Rich Image Generation
- arxiv url: http://arxiv.org/abs/2509.04126v1
- Date: Thu, 04 Sep 2025 11:44:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.146785
- Title: MEPG:Multi-Expert Planning and Generation for Compositionally-Rich Image Generation
- Title(参考訳): MEPG:合成リッチ画像生成のためのマルチエキスパート計画と生成
- Authors: Yuan Zhao, Liu Lin,
- Abstract要約: マルチエキスパート・プランニング・ジェネレーション・フレームワーク(MEPG)
MEPGは、位置対応およびスタイル対応の大規模言語モデルと空間意味の専門家モジュールを統合している。
インタラクティブインターフェースは、専門家のポートフォリオからリアルタイムな空間レイアウト編集と地域ごとのスタイル選択を可能にする。
- 参考スコア(独自算出の注目度): 9.003896493123394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image diffusion models have achieved remarkable image quality, but they still struggle with complex, multiele ment prompts, and limited stylistic diversity. To address these limitations, we propose a Multi-Expert Planning and Gen eration Framework (MEPG) that synergistically integrates position- and style-aware large language models (LLMs) with spatial-semantic expert modules. The framework comprises two core components: (1) a Position-Style-Aware (PSA) module that utilizes a supervised fine-tuned LLM to decom pose input prompts into precise spatial coordinates and style encoded semantic instructions; and (2) a Multi-Expert Dif fusion (MED) module that implements cross-region genera tion through dynamic expert routing across both local regions and global areas. During the generation process for each lo cal region, specialized models (e.g., realism experts, styliza tion specialists) are selectively activated for each spatial par tition via attention-based gating mechanisms. The architec ture supports lightweight integration and replacement of ex pert models, providing strong extensibility. Additionally, an interactive interface enables real-time spatial layout editing and per-region style selection from a portfolio of experts. Ex periments show that MEPG significantly outperforms base line models with the same backbone in both image quality and style diversity.
- Abstract(参考訳): テキスト・ツー・イメージの拡散モデルは目覚ましい画質を達成したが、複雑な多要素のプロンプトと限られたスタイルの多様性に苦慮している。
これらの制約に対処するために、位置対応およびスタイル対応の大規模言語モデル(LLM)を空間意味の専門家モジュールと相乗的に統合するマルチエキスパートプランニングおよびジェネレーションフレームワーク(MEPG)を提案する。
本フレームワークは,(1)教師付き微調整LDMを用いて入力プロンプトを精密な空間座標とスタイルエンコードセマンティックインストラクションに分解する位置スタイルアウェア(PSA)モジュール,(2)局所領域とグローバル領域をまたいだ動的エキスパートルーティングによるクロスリージョンジェネラオンを実装したマルチエキスパートディフ融合(MED)モジュールの2つのコアコンポーネントから構成される。
各ロカル領域の生成過程において、注意に基づくゲーティング機構を介して、各空間的パーティションに対して特殊モデル(例えば、リアリズムの専門家、スタイリザ・オン・スペシャリスト)を選択的に活性化する。
Architec ture は軽量な統合をサポートし、ex pert モデルの置き換えが可能で、拡張性も高い。
さらに、インタラクティブインターフェースにより、専門家のポートフォリオからリアルタイムな空間レイアウト編集と地域ごとのスタイル選択が可能になる。
MEPGは画像品質とスタイルの多様性の両方において、同じバックボーンを持つベースラインモデルを大幅に上回ることを示す。
関連論文リスト
- GCRPNet: Graph-Enhanced Contextual and Regional Perception Network For Salient Object Detection in Optical Remote Sensing Images [60.296124001189646]
本稿では,GCRPNet(Graph-enhanced contextual and Regional Recognition Network)を提案する。
これはMambaアーキテクチャの上に構築され、長距離依存関係を同時にキャプチャし、地域的特徴表現を強化する。
マルチスケールの畳み込みによって処理される特徴マップに対して適応的なパッチスキャンを行い、リッチなローカル領域情報をキャプチャする。
論文 参考訳(メタデータ) (2025-08-14T11:31:43Z) - HCMA: Hierarchical Cross-model Alignment for Grounded Text-to-Image Generation [27.770224730465237]
画像生成のための階層的クロスモーダルアライメント(HCMA)フレームワークを提案する。
HCMAは2つのアライメントモジュールを各拡散サンプリングステップに統合する。
MS-COCO 2014検証セットの実験では、HCMAが最先端のベースラインを超えたことが示されている。
論文 参考訳(メタデータ) (2025-05-10T05:02:58Z) - EarthGPT-X: Enabling MLLMs to Flexibly and Comprehensively Understand Multi-Source Remote Sensing Imagery [15.581788175591097]
リモートセンシング画像に自然空間モデルを適用することは困難である。
EarthGPT-Xはズームインとズームアウトのインサイトを提供する。
実験は、多粒度タスクにおける提案された地球GPT-Xの優位性を実証した。
論文 参考訳(メタデータ) (2025-04-17T09:56:35Z) - Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [50.433911327489554]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。
上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。
RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文 参考訳(メタデータ) (2024-10-11T08:28:04Z) - Rethinking Interactive Image Segmentation with Low Latency, High Quality, and Diverse Prompts [68.86537322287474]
多様なプロンプトを持つ低レイテンシで高品質な対話的セグメンテーションは、スペシャリストやジェネラリストモデルでは難しい。
我々は、低レイテンシ、高品質、多様なプロンプトサポートを提供する次世代インタラクティブセグメンテーションアプローチであるSegNextを提案する。
本手法は,HQSeg-44KとDAVISにおいて,定量的かつ定性的に,最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-03-31T17:02:24Z) - One-for-All: Towards Universal Domain Translation with a Single StyleGAN [86.33216867136639]
視覚的に異なる領域間の表現を変換するための新しい翻訳モデルUniTranslatorを提案する。
提案したUniTranslatorは汎用的で、スタイルミキシング、スタイリゼーション、翻訳など様々なタスクを実行できる。
UniTranslatorは、既存の汎用モデルの性能を超越し、代表タスクの特殊モデルに対してよく機能する。
論文 参考訳(メタデータ) (2023-10-22T08:02:55Z) - Multi-modal Gated Mixture of Local-to-Global Experts for Dynamic Image
Fusion [59.19469551774703]
赤外線と可視画像の融合は,複数の情報源からの包括的情報を統合して,様々な作業において優れた性能を実現することを目的としている。
局所-言語の専門家によるマルチモーダルゲート混合を用いた動的画像融合フレームワークを提案する。
本モデルは,Mixture of Local Experts (MoLE) とMixture of Global Experts (MoGE) から構成される。
論文 参考訳(メタデータ) (2023-02-02T20:06:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。