論文の概要: Collaborative Text-to-Image Generation via Multi-Agent Reinforcement Learning and Semantic Fusion
- arxiv url: http://arxiv.org/abs/2510.10633v1
- Date: Sun, 12 Oct 2025 14:29:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.042459
- Title: Collaborative Text-to-Image Generation via Multi-Agent Reinforcement Learning and Semantic Fusion
- Title(参考訳): マルチエージェント強化学習と意味融合による協調的テキスト・画像生成
- Authors: Jiabao Shi, Minfeng Qi, Lefeng Zhang, Di Wang, Yingjie Zhao, Ziying Li, Yalong Xing, Ningran Li,
- Abstract要約: マルチモーダルテキスト・ツー・イメージ生成は、セマンティックアライメントと専門レベルの詳細を維持することの難しさに制約されているままである。
本稿では,ドメイン固有化エージェントを2つの結合サブシステム内で協調するマルチエージェント強化学習フレームワークを提案する。
エージェントは、意味的類似性、言語的視覚的品質、コンテンツ多様性のバランスをとる複合報酬関数の下で、PPO(Proximal Policy Optimization)を使用して訓練される。
- 参考スコア(独自算出の注目度): 5.999912771209971
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal text-to-image generation remains constrained by the difficulty of maintaining semantic alignment and professional-level detail across diverse visual domains. We propose a multi-agent reinforcement learning framework that coordinates domain-specialized agents (e.g., focused on architecture, portraiture, and landscape imagery) within two coupled subsystems: a text enhancement module and an image generation module, each augmented with multimodal integration components. Agents are trained using Proximal Policy Optimization (PPO) under a composite reward function that balances semantic similarity, linguistic visual quality, and content diversity. Cross-modal alignment is enforced through contrastive learning, bidirectional attention, and iterative feedback between text and image. Across six experimental settings, our system significantly enriches generated content (word count increased by 1614%) while reducing ROUGE-1 scores by 69.7%. Among fusion methods, Transformer-based strategies achieve the highest composite score (0.521), despite occasional stability issues. Multimodal ensembles yield moderate consistency (ranging from 0.444 to 0.481), reflecting the persistent challenges of cross-modal semantic grounding. These findings underscore the promise of collaborative, specialization-driven architectures for advancing reliable multimodal generative systems.
- Abstract(参考訳): マルチモーダルテキスト・画像生成は、様々な視覚領域にまたがる意味的アライメントと専門レベルの詳細を維持することの難しさによって、いまだに制約されている。
テキスト拡張モジュールと画像生成モジュールの2つのサブシステムにドメイン特化エージェント(例えば、建築、肖像画、風景画像)を協調させるマルチエージェント強化学習フレームワークを提案する。
エージェントは、意味的類似性、言語的視覚的品質、コンテンツ多様性のバランスをとる複合報酬関数の下で、PPO(Proximal Policy Optimization)を使用して訓練される。
クロスモーダルアライメントは、対照的な学習、双方向の注意、テキストと画像間の反復的なフィードバックを通じて実施される。
6つの実験環境において, ROUGE-1スコアを69.7%削減し, 生成内容(単語数1614%増加)を著しく高めている。
融合法では、時折安定性の問題があるにもかかわらず、トランスフォーマーベースの戦略が最も高い合成スコア(0.521)を達成する。
マルチモーダルアンサンブルは適度な整合性(0.444から0.481の範囲)を持ち、クロスモーダルセマンティックグラウンドディングの永続的な課題を反映している。
これらの知見は、信頼性の高いマルチモーダル生成システムのための協調的特殊化駆動アーキテクチャの約束を裏付けるものである。
関連論文リスト
- Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。
本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。
実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-30T17:59:46Z) - UniAlignment: Semantic Alignment for Unified Image Generation, Understanding, Manipulation and Perception [54.53657134205492]
UniAlignmentは単一の拡散変換器内での統一されたマルチモーダル生成フレームワークである。
固有モード意味アライメントとクロスモーダル意味アライメントの両方を組み込むことで、モデルのクロスモーダル一貫性と命令追従ロバスト性を高める。
本稿では、複雑なテキスト命令下でのマルチモーダルなセマンティック一貫性を評価するために設計された新しいベンチマークであるSemGen-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-28T09:11:30Z) - AdaptaGen: Domain-Specific Image Generation through Hierarchical Semantic Optimization Framework [0.0]
ドメイン固有の画像生成は、専門分野のための高品質なビジュアルコンテンツを作成することを目的としている。
現在のアプローチでは、専門領域における意味的理解と視覚的表現の固有の依存性を見落としている。
本稿では,行列ベースのプロンプト最適化とマルチパースペクティブ理解を統合した階層型セマンティック最適化フレームワークAdaptaGenを提案する。
論文 参考訳(メタデータ) (2025-07-08T03:04:08Z) - Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。
Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。
実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-08T17:58:57Z) - MCCD: Multi-Agent Collaboration-based Compositional Diffusion for Complex Text-to-Image Generation [15.644911934279309]
拡散モデルはテキスト・画像生成において優れた性能を示した。
複雑なシーンに対するテキスト・画像生成のための多エージェント協調型合成拡散法を提案する。
論文 参考訳(メタデータ) (2025-05-05T13:50:03Z) - Generating Multimodal Images with GAN: Integrating Text, Image, and Style [7.481665175881685]
GAN(Generative Adversarial Networks)に基づくマルチモーダル画像生成手法を提案する。
この方法は、テキストエンコーダ、画像特徴抽出器、スタイル統合モジュールの設計を含む。
実験結果から,提案手法は複数の公開データセットにまたがって,高い明瞭度と一貫性を有する画像を生成することがわかった。
論文 参考訳(メタデータ) (2025-01-04T02:51:28Z) - Interleaved Scene Graphs for Interleaved Text-and-Image Generation Assessment [53.45813302866466]
我々は、インターリーブされたテキスト・画像生成のための総合的な評価フレームワークISGを提案する。
ISGは、全体性、構造性、ブロックレベル、画像固有性の4つのレベルで反応を評価する。
ISGと組み合わせて、ISG-Benchというベンチマークを導入し、8つのカテゴリと21のサブカテゴリにわたる1,150のサンプルを網羅した。
論文 参考訳(メタデータ) (2024-11-26T07:55:57Z) - Advanced Multimodal Deep Learning Architecture for Image-Text Matching [33.8315200009152]
画像テキストマッチングは、画像とテキスト間の意味的関連をマッチング関係としてモデル化することを目的とした、重要なマルチモーダルタスクである。
本稿では、視覚情報のための深層ニューラルネットワークの高レベル抽象表現能力と、テキスト意味理解のための自然言語処理モデルの利点を組み合わせた高度なマルチモーダルディープラーニングアーキテクチャを提案する。
実験の結果、既存の画像テキストマッチングモデルと比較して、最適化された新しいモデルは一連のベンチマークデータセットの性能を大幅に改善した。
論文 参考訳(メタデータ) (2024-06-13T08:32:24Z) - High-Quality Pluralistic Image Completion via Code Shared VQGAN [51.7805154545948]
高速な推論速度で高品質と多様性を両立させることができる多元画像補完のための新しい枠組みを提案する。
我々のフレームワークは、セマンティックにリッチな離散的なコードを効率的かつ堅牢に学習することができ、画像再構成の品質が大幅に向上する。
論文 参考訳(メタデータ) (2022-04-05T01:47:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。