Fugu-MT 論文翻訳(概要): Marmot: Multi-Agent Reasoning for Multi-Object Self-Correcting in Improving Image-Text Alignment

論文の概要: Marmot: Multi-Agent Reasoning for Multi-Object Self-Correcting in Improving Image-Text Alignment

arxiv url: http://arxiv.org/abs/2504.20054v2
Date: Mon, 26 May 2025 03:42:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-27 14:32:54.457759
Title: Marmot: Multi-Agent Reasoning for Multi-Object Self-Correcting in Improving Image-Text Alignment
Title（参考訳）: Marmot: 画像テキストアライメント改善のためのマルチオブジェクト自己修正のためのマルチエージェント推論
Authors: Jiayang Sun, Hongbo Wang, Jie Cao, Huaibo Huang, Ran He,
Abstract要約: Marmotは、マルチオブジェクトの自己修正にマルチエージェント推論を採用する新しいフレームワークである。我々は,意思決定検証機構を備えたマルチエージェント自己修正システムを構築した。実験により、Marmotはオブジェクトのカウント、属性割り当て、空間的関係において精度を大幅に向上することが示された。
参考スコア（独自算出の注目度）: 55.74860093731475
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While diffusion models excel at generating high-quality images, they often struggle with accurate counting, attributes, and spatial relationships in complex multi-object scenes. One potential approach is to utilize Multimodal Large Language Model (MLLM) as an AI agent to build a self-correction framework. However, these approaches are highly dependent on the capabilities of the employed MLLM, often failing to account for all objects within the image. To address these challenges, we propose Marmot, a novel and generalizable framework that employs Multi-Agent Reasoning for Multi-Object Self-Correcting, enhancing image-text alignment and facilitating more coherent multi-object image editing. Our framework adopts a divide-and-conquer strategy, decomposing the self-correction task into object-level subtasks according to three critical dimensions: counting, attributes, and spatial relationships. We construct a multi-agent self-correcting system featuring a decision-execution-verification mechanism, effectively mitigating inter-object interference and enhancing editing reliability. To resolve the problem of subtask integration, we propose a Pixel-Domain Stitching Smoother that employs mask-guided two-stage latent space optimization. This innovation enables parallel processing of subtask results, thereby enhancing runtime efficiency while eliminating multi-stage distortion accumulation. Extensive experiments demonstrate that Marmot significantly improves accuracy in object counting, attribute assignment, and spatial relationships for image generation tasks.
Abstract（参考訳）: 拡散モデルは高品質な画像を生成するのに優れているが、複雑なマルチオブジェクトシーンにおける正確なカウント、属性、空間的関係に苦慮することが多い。潜在的なアプローチの1つは、MLLM(Multimodal Large Language Model)をAIエージェントとして使用して、自己補正フレームワークを構築することである。しかし、これらのアプローチはMLLMの能力に大きく依存しており、画像内の全てのオブジェクトを考慮できないことが多い。これらの課題に対処するために,マルチオブジェクトの自己修正にマルチエージェント推論を導入し,画像テキストのアライメントを強化し,より一貫性のあるマルチオブジェクト画像編集を容易にする,斬新で一般化可能なフレームワークであるMarmotを提案する。本フレームワークでは,自己補正タスクを3つの重要な次元(カウント,属性,空間関係)に応じてオブジェクトレベルサブタスクに分解する。我々は、意思決定検証機構を備えた多エージェント自己修正システムを構築し、オブジェクト間の干渉を効果的に軽減し、編集信頼性を向上する。サブタスク統合の問題を解決するために,マスク誘導2段遅延空間最適化を用いたPixel-Domain Stitching Smootherを提案する。このイノベーションはサブタスク結果の並列処理を可能にし、多段歪み蓄積を排除しながら実行効率を向上させる。大規模な実験により、Marmotは画像生成タスクにおけるオブジェクトカウント、属性割り当て、空間関係の精度を大幅に向上することが示された。

関連論文リスト

Model Merging in the Essential Subspace [78.5390284258307]
モデルマージは、複数のタスク固有の細調整されたモデルを、追加のトレーニングなしで単一のマルチタスクモデルに統合することを目的としている。広範囲の研究にもかかわらず、タスク干渉は依然として大きな障害であり、しばしば統合されたモデルの性能を損なう。効率的なモデルマージのための堅牢なフレームワークであるESM(Essential Subspace Merging)を提案する。
論文参考訳（メタデータ） (2026-02-23T00:33:38Z)
Hierarchical Scheduling for Multi-Vector Image Retrieval [17.023146933530484]
HiMIRは画像検索のための効率的なスケジューリングフレームワークである。本稿では,画像オブジェクトのアライメントを高めるために,複数の中間粒度を用いた新しい階層的パラダイムを提案する。実験により,HMIRは精度を向上するだけでなく,既存のMVRシステムに比べて最大3.5倍の計算量を削減できることがわかった。
論文参考訳（メタデータ） (2025-10-10T03:36:18Z)
Objective Soups: Multilingual Multi-Task Modeling for Speech Processing [69.52720282028385]
マルチ言語・マルチタスク音声処理(MSP)のための単一モデルの訓練は,タスク間の目的の相反によって著しく妨げられる。本稿では,多目的MSPの3つの定式化について検討し,これらをthabfobjective soup recipesと呼ぶ。我々の研究は、階層型MOOが最先端のMSPモデルを構築する上で、より効率的でスケーラブルなアプローチであることを実証している。
論文参考訳（メタデータ） (2025-08-12T07:01:09Z)
MDE-Edit: Masked Dual-Editing for Multi-Object Image Editing via Diffusion Models [10.798205956644317]
我々は,MDE-Edit と呼ばれる複雑な多目的シーンにおいて,高精度な局所化画像操作を可能にする,トレーニング不要な推論ステージ最適化手法を提案する。大規模な実験により、MDE-Editは、編集精度と視覚的品質において最先端の手法よりも優れており、複雑な多目的画像操作タスクに対する堅牢なソリューションを提供する。
論文参考訳（メタデータ） (2025-05-08T10:01:14Z)
Balancing Task-invariant Interaction and Task-specific Adaptation for Unified Image Fusion [82.74585945197231]
統合画像融合は、マルチソース画像からの補完情報を統合し、画質を向上させることを目的としている。既存の一般画像融合法では、異なる融合タスクへの適応を可能にする明示的なタスク識別が組み込まれている。本稿では,タスク不変相互作用とタスク固有適応のバランスをとる,新たな統合画像融合フレームワーク「TITA」を提案する。
論文参考訳（メタデータ） (2025-04-07T15:08:35Z)
HOMER: Homography-Based Efficient Multi-view 3D Object Removal [25.832938786291358]
3Dオブジェクトの除去は、3Dシーン編集において重要なサブタスクであり、シーン理解、拡張現実、ロボット工学に広く応用されている。既存の手法は、複数ビュー設定における一貫性、ユーザビリティ、計算効率の相違点を達成するのに苦労する。マルチビューオブジェクトマスク生成とインペイントの質と効率を向上する新しいパイプラインを提案する。
論文参考訳（メタデータ） (2025-01-29T13:12:06Z)
EC-Diffuser: Multi-Object Manipulation via Entity-Centric Behavior Generation [30.93060152004132]
高次元観測から物体を操作することを学ぶことは重要な課題である。最近のアプローチでは、大規模なオフラインデータを使用して、ピクセル観測からモデルをトレーニングしている。本稿では、オブジェクト中心の表現とエンティティ中心のトランスフォーマーを活用する新しい行動クローニング(BC)手法を提案する。
論文参考訳（メタデータ） (2024-12-25T13:50:15Z)
COMO: Cross-Mamba Interaction and Offset-Guided Fusion for Multimodal Object Detection [9.913133285133998]
単一モードのオブジェクト検出タスクは、多種多様なシナリオに遭遇する際のパフォーマンス劣化を経験することが多い。マルチモーダルオブジェクト検出タスクは、様々なモダリティからのデータを統合することで、オブジェクト機能に関するより包括的な情報を提供することができる。本稿では,CrOss-Mamba相互作用とOffset-Guided融合フレームワークという新しい手法を提案する。
論文参考訳（メタデータ） (2024-12-24T01:14:48Z)
AdapMTL: Adaptive Pruning Framework for Multitask Learning Model [5.643658120200373]
AdapMTLはマルチタスクモデルのための適応型プルーニングフレームワークである。複数のタスクにまたがって、空間割り当てと精度のパフォーマンスのバランスをとる。最先端の刈り取り法に比べて優れた性能を示す。
論文参考訳（メタデータ） (2024-08-07T17:19:15Z)
Multi-Expert Adaptive Selection: Task-Balancing for All-in-One Image Restoration [20.04384107349706]
マルチタスク画像復元のためのマルチエキスパート適応選択機構を提案する。このスキームは、入力画像の内容と現在のタスクのプロンプトに応じて、エキスパートライブラリから最も適した専門家を適応的に選択する。実験の結果,提案手法は既存手法よりも有効かつ優れていることがわかった。
論文参考訳（メタデータ） (2024-07-27T01:13:07Z)
GenArtist: Multimodal LLM as an Agent for Unified Image Generation and Editing [60.09562648953926]
GenArtistは、マルチモーダル大言語モデル(MLLM)エージェントによって調整された統合画像生成および編集システムである。ツールライブラリに既存のモデルを包括的に統合し,ツールの選択と実行にエージェントを利用する。実験により、GenArtistは様々な生成および編集タスクを実行でき、最先端のパフォーマンスを達成できることが示された。
論文参考訳（メタデータ） (2024-07-08T04:30:53Z)
Comprehensive Generative Replay for Task-Incremental Segmentation with Concurrent Appearance and Semantic Forgetting [49.87694319431288]
一般的なセグメンテーションモデルは、異なる画像ソースからの様々なオブジェクトを含む様々なタスクに対して、ますます好まれている。画像とマスクのペアを合成することで外観と意味の知識を復元する包括的生成(CGR)フレームワークを提案する。漸進的タスク(心身、基礎、前立腺のセグメンテーション)の実験は、同時出現と意味的忘れを緩和する上で、明らかな優位性を示している。
論文参考訳（メタデータ） (2024-06-28T10:05:58Z)
DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文参考訳（メタデータ） (2024-06-03T17:59:53Z)
DesignEdit: Multi-Layered Latent Decomposition and Fusion for Unified & Accurate Image Editing [22.855660721387167]
本研究では,空間認識画像編集タスクを2つのサブタスク,多層ラテント分解と多層ラテント融合の組合せに変換する。提案手法は,自己ガイドやDiffEditorなど,最新の空間編集手法を一貫して上回っていることを示す。
論文参考訳（メタデータ） (2024-03-21T15:35:42Z)
LoMOE: Localized Multi-Object Editing via Multi-Diffusion [8.90467024388923]
本稿では,ゼロショットローカライズされたマルチオブジェクト編集のための新しいフレームワークを提案する。提案手法は, 前景マスクとそれに対応する簡単なテキストプロンプトを利用して, 対象領域に局所的な影響を与える。ラテント空間内のクロスアテンションとバックグラウンドロスの組み合わせにより、編集対象の特性が保存される。
論文参考訳（メタデータ） (2024-03-01T10:46:47Z)
Consolidating Attention Features for Multi-view Image Editing [126.19731971010475]
本研究では,空間制御に基づく幾何学的操作に着目し,様々な視点にまたがって編集プロセスを統合する手法を提案する。編集画像の内部クエリ機能に基づいて訓練されたニューラルラジアンス場QNeRFを紹介する。拡散時間の経過とともにクエリをよりよく統合する、プログレッシブで反復的な手法により、プロセスを洗練します。
論文参考訳（メタデータ） (2024-02-22T18:50:18Z)
MuLan: Multimodal-LLM Agent for Progressive and Interactive Multi-Object Diffusion [81.7514869897233]
トレーニング不要なマルチモーダルLLMエージェント (MuLan) を人体画家として開発し, 段階的にマルチオブジェクトを生成する。 MuLanは、大きな言語モデル(LLM)を使用して、サブタスクのシーケンスへのプロンプトを分解する。 MuLanはまた、視覚言語モデル(VLM)を採用して、各サブタスクで生成された画像にフィードバックを提供し、拡散モデルを制御して、元のプロンプトに反した場合に画像を再生成する。
論文参考訳（メタデータ） (2024-02-20T06:14:30Z)
Exposing and Addressing Cross-Task Inconsistency in Unified Vision-Language Models [80.23791222509644]
一貫性のないAIモデルは、人間のユーザーによって不安定で信頼できないと見なされている。最先端のビジョン言語モデルは、タスク間の驚くほど高い一貫性のない振る舞いに悩まされている。本稿では,大規模で自動生成されるクロスタスクコントラスト集合上で計算されたランク相関に基づく補助訓練目標を提案する。
論文参考訳（メタデータ） (2023-03-28T16:57:12Z)
Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文参考訳（メタデータ） (2022-04-19T17:59:45Z)
Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文参考訳（メタデータ） (2020-03-15T11:04:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。