論文の概要: Marmot: Object-Level Self-Correction via Multi-Agent Reasoning
- arxiv url: http://arxiv.org/abs/2504.20054v3
- Date: Fri, 15 Aug 2025 03:38:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.345901
- Title: Marmot: Object-Level Self-Correction via Multi-Agent Reasoning
- Title(参考訳): Marmot:マルチエージェント推論によるオブジェクトレベル自己補正
- Authors: Jiayang Sun, Hongbo Wang, Jie Cao, Huaibo Huang, Ran He,
- Abstract要約: Marmotは、マルチオブジェクトの自己修正にマルチエージェント推論を活用する、新しくて一般化可能なフレームワークである。
Marmotは、画像生成タスクにおけるオブジェクトカウント、属性割り当て、空間関係の精度を大幅に改善する。
- 参考スコア(独自算出の注目度): 55.74860093731475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While diffusion models excel at generating high-quality images, they often struggle with accurate counting, attributes, and spatial relationships in complex multi-object scenes. One potential solution involves employing Multimodal Large Language Model (MLLM) as an AI agent to construct a self-correction framework. However, these approaches heavily rely on the capabilities of the MLLMs used, often fail to account for all objects within the image, and suffer from cumulative distortions during multi-round editing processes. To address these challenges, we propose Marmot, a novel and generalizable framework that leverages Multi-Agent Reasoning for Multi-Object Self-Correcting to enhance image-text alignment. First, we employ a large language model as an Object-Aware Agent to perform object-level divide-and-conquer, automatically decomposing self-correction tasks into object-centric subtasks based on image descriptions. For each subtask, we construct an Object Correction System featuring a decision-execution-verification mechanism that operates exclusively on a single object's segmentation mask or the bounding boxes of object pairs, effectively mitigating inter-object interference and enhancing editing reliability. To efficiently integrate correction results from subtasks while avoiding cumulative distortions from multi-stage editing, we propose a Pixel-Domain Stitching Smoother, which employs mask-guided two-stage latent space optimization. This innovation enables parallel processing of subtasks, significantly improving runtime efficiency while preventing distortion accumulation. Extensive experiments demonstrate that Marmot significantly improves accuracy in object counting, attribute assignment, and spatial relationships for image generation tasks.
- Abstract(参考訳): 拡散モデルは高品質な画像を生成するのに優れているが、複雑なマルチオブジェクトシーンにおける正確なカウント、属性、空間的関係に苦慮することが多い。
潜在的な解決策の1つは、自己補正フレームワークを構築するために、AIエージェントとしてMLLM(Multimodal Large Language Model)を使用することである。
しかし、これらのアプローチはMLLMの能力に大きく依存しており、画像内の全てのオブジェクトを考慮できないことが多く、複数ラウンドの編集プロセスにおいて累積歪みに悩まされている。
これらの課題に対処するために,マルチエージェント推論を多目的自己補正に活用し,画像テキストのアライメントを向上する,斬新で一般化可能なフレームワークであるMarmotを提案する。
まず、画像記述に基づいて自己補正タスクをオブジェクト中心のサブタスクに自動的に分解し、オブジェクトレベルの分割処理を実行するために、Object-Aware Agentとして大きな言語モデルを用いる。
各サブタスクに対して、単一オブジェクトのセグメンテーションマスクやオブジェクトペアのバウンディングボックスのみで動作する決定実行検証機構を備えたオブジェクト補正システムを構築し、オブジェクト間の干渉を効果的に軽減し、編集信頼性を向上させる。
多段編集による累積歪みを回避しつつ,サブタスクからの補正結果を効率的に統合するため,マスク誘導2段遅延空間最適化を用いたPixel-Domain Stitching Smootherを提案する。
このイノベーションはサブタスクの並列処理を可能にし、歪みの蓄積を防止しながら実行効率を大幅に改善する。
大規模な実験により、Marmotは画像生成タスクにおけるオブジェクトカウント、属性割り当て、空間関係の精度を大幅に向上することが示された。
関連論文リスト
- MDE-Edit: Masked Dual-Editing for Multi-Object Image Editing via Diffusion Models [10.798205956644317]
我々は,MDE-Edit と呼ばれる複雑な多目的シーンにおいて,高精度な局所化画像操作を可能にする,トレーニング不要な推論ステージ最適化手法を提案する。
大規模な実験により、MDE-Editは、編集精度と視覚的品質において最先端の手法よりも優れており、複雑な多目的画像操作タスクに対する堅牢なソリューションを提供する。
論文 参考訳(メタデータ) (2025-05-08T10:01:14Z) - Balancing Task-invariant Interaction and Task-specific Adaptation for Unified Image Fusion [82.74585945197231]
統合画像融合は、マルチソース画像からの補完情報を統合し、画質を向上させることを目的としている。
既存の一般画像融合法では、異なる融合タスクへの適応を可能にする明示的なタスク識別が組み込まれている。
本稿では,タスク不変相互作用とタスク固有適応のバランスをとる,新たな統合画像融合フレームワーク「TITA」を提案する。
論文 参考訳(メタデータ) (2025-04-07T15:08:35Z) - HOMER: Homography-Based Efficient Multi-view 3D Object Removal [25.832938786291358]
3Dオブジェクトの除去は、3Dシーン編集において重要なサブタスクであり、シーン理解、拡張現実、ロボット工学に広く応用されている。
既存の手法は、複数ビュー設定における一貫性、ユーザビリティ、計算効率の相違点を達成するのに苦労する。
マルチビューオブジェクトマスク生成とインペイントの質と効率を向上する新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2025-01-29T13:12:06Z) - COMO: Cross-Mamba Interaction and Offset-Guided Fusion for Multimodal Object Detection [9.913133285133998]
単一モードのオブジェクト検出タスクは、多種多様なシナリオに遭遇する際のパフォーマンス劣化を経験することが多い。
マルチモーダルオブジェクト検出タスクは、様々なモダリティからのデータを統合することで、オブジェクト機能に関するより包括的な情報を提供することができる。
本稿では,CrOss-Mamba相互作用とOffset-Guided融合フレームワークという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-24T01:14:48Z) - AdapMTL: Adaptive Pruning Framework for Multitask Learning Model [5.643658120200373]
AdapMTLはマルチタスクモデルのための適応型プルーニングフレームワークである。
複数のタスクにまたがって、空間割り当てと精度のパフォーマンスのバランスをとる。
最先端の刈り取り法に比べて優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-07T17:19:15Z) - Multi-Expert Adaptive Selection: Task-Balancing for All-in-One Image Restoration [20.04384107349706]
マルチタスク画像復元のためのマルチエキスパート適応選択機構を提案する。
このスキームは、入力画像の内容と現在のタスクのプロンプトに応じて、エキスパートライブラリから最も適した専門家を適応的に選択する。
実験の結果,提案手法は既存手法よりも有効かつ優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-27T01:13:07Z) - GenArtist: Multimodal LLM as an Agent for Unified Image Generation and Editing [60.09562648953926]
GenArtistは、マルチモーダル大言語モデル(MLLM)エージェントによって調整された統合画像生成および編集システムである。
ツールライブラリに既存のモデルを包括的に統合し,ツールの選択と実行にエージェントを利用する。
実験により、GenArtistは様々な生成および編集タスクを実行でき、最先端のパフォーマンスを達成できることが示された。
論文 参考訳(メタデータ) (2024-07-08T04:30:53Z) - Comprehensive Generative Replay for Task-Incremental Segmentation with Concurrent Appearance and Semantic Forgetting [49.87694319431288]
一般的なセグメンテーションモデルは、異なる画像ソースからの様々なオブジェクトを含む様々なタスクに対して、ますます好まれている。
画像とマスクのペアを合成することで外観と意味の知識を復元する包括的生成(CGR)フレームワークを提案する。
漸進的タスク(心身、基礎、前立腺のセグメンテーション)の実験は、同時出現と意味的忘れを緩和する上で、明らかな優位性を示している。
論文 参考訳(メタデータ) (2024-06-28T10:05:58Z) - DesignEdit: Multi-Layered Latent Decomposition and Fusion for Unified & Accurate Image Editing [22.855660721387167]
本研究では,空間認識画像編集タスクを2つのサブタスク,多層ラテント分解と多層ラテント融合の組合せに変換する。
提案手法は,自己ガイドやDiffEditorなど,最新の空間編集手法を一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-21T15:35:42Z) - LoMOE: Localized Multi-Object Editing via Multi-Diffusion [8.90467024388923]
本稿では,ゼロショットローカライズされたマルチオブジェクト編集のための新しいフレームワークを提案する。
提案手法は, 前景マスクとそれに対応する簡単なテキストプロンプトを利用して, 対象領域に局所的な影響を与える。
ラテント空間内のクロスアテンションとバックグラウンドロスの組み合わせにより、編集対象の特性が保存される。
論文 参考訳(メタデータ) (2024-03-01T10:46:47Z) - Consolidating Attention Features for Multi-view Image Editing [126.19731971010475]
本研究では,空間制御に基づく幾何学的操作に着目し,様々な視点にまたがって編集プロセスを統合する手法を提案する。
編集画像の内部クエリ機能に基づいて訓練されたニューラルラジアンス場QNeRFを紹介する。
拡散時間の経過とともにクエリをよりよく統合する、プログレッシブで反復的な手法により、プロセスを洗練します。
論文 参考訳(メタデータ) (2024-02-22T18:50:18Z) - MuLan: Multimodal-LLM Agent for Progressive and Interactive Multi-Object Diffusion [81.7514869897233]
トレーニング不要なマルチモーダルLLMエージェント (MuLan) を人体画家として開発し, 段階的にマルチオブジェクトを生成する。
MuLanは、大きな言語モデル(LLM)を使用して、サブタスクのシーケンスへのプロンプトを分解する。
MuLanはまた、視覚言語モデル(VLM)を採用して、各サブタスクで生成された画像にフィードバックを提供し、拡散モデルを制御して、元のプロンプトに反した場合に画像を再生成する。
論文 参考訳(メタデータ) (2024-02-20T06:14:30Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。