論文の概要: Marmot: Multi-Agent Reasoning for Multi-Object Self-Correcting in Improving Image-Text Alignment
- arxiv url: http://arxiv.org/abs/2504.20054v2
- Date: Mon, 26 May 2025 03:42:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 14:32:54.457759
- Title: Marmot: Multi-Agent Reasoning for Multi-Object Self-Correcting in Improving Image-Text Alignment
- Title(参考訳): Marmot: 画像テキストアライメント改善のためのマルチオブジェクト自己修正のためのマルチエージェント推論
- Authors: Jiayang Sun, Hongbo Wang, Jie Cao, Huaibo Huang, Ran He,
- Abstract要約: Marmotは、マルチオブジェクトの自己修正にマルチエージェント推論を採用する新しいフレームワークである。
我々は,意思決定検証機構を備えたマルチエージェント自己修正システムを構築した。
実験により、Marmotはオブジェクトのカウント、属性割り当て、空間的関係において精度を大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 55.74860093731475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While diffusion models excel at generating high-quality images, they often struggle with accurate counting, attributes, and spatial relationships in complex multi-object scenes. One potential approach is to utilize Multimodal Large Language Model (MLLM) as an AI agent to build a self-correction framework. However, these approaches are highly dependent on the capabilities of the employed MLLM, often failing to account for all objects within the image. To address these challenges, we propose Marmot, a novel and generalizable framework that employs Multi-Agent Reasoning for Multi-Object Self-Correcting, enhancing image-text alignment and facilitating more coherent multi-object image editing. Our framework adopts a divide-and-conquer strategy, decomposing the self-correction task into object-level subtasks according to three critical dimensions: counting, attributes, and spatial relationships. We construct a multi-agent self-correcting system featuring a decision-execution-verification mechanism, effectively mitigating inter-object interference and enhancing editing reliability. To resolve the problem of subtask integration, we propose a Pixel-Domain Stitching Smoother that employs mask-guided two-stage latent space optimization. This innovation enables parallel processing of subtask results, thereby enhancing runtime efficiency while eliminating multi-stage distortion accumulation. Extensive experiments demonstrate that Marmot significantly improves accuracy in object counting, attribute assignment, and spatial relationships for image generation tasks.
- Abstract(参考訳): 拡散モデルは高品質な画像を生成するのに優れているが、複雑なマルチオブジェクトシーンにおける正確なカウント、属性、空間的関係に苦慮することが多い。
潜在的なアプローチの1つは、MLLM(Multimodal Large Language Model)をAIエージェントとして使用して、自己補正フレームワークを構築することである。
しかし、これらのアプローチはMLLMの能力に大きく依存しており、画像内の全てのオブジェクトを考慮できないことが多い。
これらの課題に対処するために,マルチオブジェクトの自己修正にマルチエージェント推論を導入し,画像テキストのアライメントを強化し,より一貫性のあるマルチオブジェクト画像編集を容易にする,斬新で一般化可能なフレームワークであるMarmotを提案する。
本フレームワークでは,自己補正タスクを3つの重要な次元(カウント,属性,空間関係)に応じてオブジェクトレベルサブタスクに分解する。
我々は、意思決定検証機構を備えた多エージェント自己修正システムを構築し、オブジェクト間の干渉を効果的に軽減し、編集信頼性を向上する。
サブタスク統合の問題を解決するために,マスク誘導2段遅延空間最適化を用いたPixel-Domain Stitching Smootherを提案する。
このイノベーションはサブタスク結果の並列処理を可能にし、多段歪み蓄積を排除しながら実行効率を向上させる。
大規模な実験により、Marmotは画像生成タスクにおけるオブジェクトカウント、属性割り当て、空間関係の精度を大幅に向上することが示された。
関連論文リスト
- Balancing Task-invariant Interaction and Task-specific Adaptation for Unified Image Fusion [82.74585945197231]
統合画像融合は、マルチソース画像からの補完情報を統合し、画質を向上させることを目的としている。
既存の一般画像融合法では、異なる融合タスクへの適応を可能にする明示的なタスク識別が組み込まれている。
本稿では,タスク不変相互作用とタスク固有適応のバランスをとる,新たな統合画像融合フレームワーク「TITA」を提案する。
論文 参考訳(メタデータ) (2025-04-07T15:08:35Z) - HOMER: Homography-Based Efficient Multi-view 3D Object Removal [25.832938786291358]
3Dオブジェクトの除去は、3Dシーン編集において重要なサブタスクであり、シーン理解、拡張現実、ロボット工学に広く応用されている。
既存の手法は、複数ビュー設定における一貫性、ユーザビリティ、計算効率の相違点を達成するのに苦労する。
マルチビューオブジェクトマスク生成とインペイントの質と効率を向上する新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2025-01-29T13:12:06Z) - Multi-Expert Adaptive Selection: Task-Balancing for All-in-One Image Restoration [20.04384107349706]
マルチタスク画像復元のためのマルチエキスパート適応選択機構を提案する。
このスキームは、入力画像の内容と現在のタスクのプロンプトに応じて、エキスパートライブラリから最も適した専門家を適応的に選択する。
実験の結果,提案手法は既存手法よりも有効かつ優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-27T01:13:07Z) - Comprehensive Generative Replay for Task-Incremental Segmentation with Concurrent Appearance and Semantic Forgetting [49.87694319431288]
一般的なセグメンテーションモデルは、異なる画像ソースからの様々なオブジェクトを含む様々なタスクに対して、ますます好まれている。
画像とマスクのペアを合成することで外観と意味の知識を復元する包括的生成(CGR)フレームワークを提案する。
漸進的タスク(心身、基礎、前立腺のセグメンテーション)の実験は、同時出現と意味的忘れを緩和する上で、明らかな優位性を示している。
論文 参考訳(メタデータ) (2024-06-28T10:05:58Z) - DesignEdit: Multi-Layered Latent Decomposition and Fusion for Unified & Accurate Image Editing [22.855660721387167]
本研究では,空間認識画像編集タスクを2つのサブタスク,多層ラテント分解と多層ラテント融合の組合せに変換する。
提案手法は,自己ガイドやDiffEditorなど,最新の空間編集手法を一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-21T15:35:42Z) - LoMOE: Localized Multi-Object Editing via Multi-Diffusion [8.90467024388923]
本稿では,ゼロショットローカライズされたマルチオブジェクト編集のための新しいフレームワークを提案する。
提案手法は, 前景マスクとそれに対応する簡単なテキストプロンプトを利用して, 対象領域に局所的な影響を与える。
ラテント空間内のクロスアテンションとバックグラウンドロスの組み合わせにより、編集対象の特性が保存される。
論文 参考訳(メタデータ) (2024-03-01T10:46:47Z) - Consolidating Attention Features for Multi-view Image Editing [126.19731971010475]
本研究では,空間制御に基づく幾何学的操作に着目し,様々な視点にまたがって編集プロセスを統合する手法を提案する。
編集画像の内部クエリ機能に基づいて訓練されたニューラルラジアンス場QNeRFを紹介する。
拡散時間の経過とともにクエリをよりよく統合する、プログレッシブで反復的な手法により、プロセスを洗練します。
論文 参考訳(メタデータ) (2024-02-22T18:50:18Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。