論文の概要: Multi-Agent Amodal Completion: Direct Synthesis with Fine-Grained Semantic Guidance
- arxiv url: http://arxiv.org/abs/2509.17757v1
- Date: Mon, 22 Sep 2025 13:20:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.407226
- Title: Multi-Agent Amodal Completion: Direct Synthesis with Fine-Grained Semantic Guidance
- Title(参考訳): マルチエージェントアモーダルコンプリート:微粒化セマンティック誘導による直接合成
- Authors: Hongxing Fan, Lipeng Wang, Haohua Chen, Zehuan Huang, Jiangtao Wu, Lu Sheng,
- Abstract要約: 隠されたオブジェクトの見えない部分を生成するアモーダルコンプリートは、画像編集やARといったアプリケーションには不可欠である。
本稿では,これらの問題を克服するための先行的協調推論に基づく協調的マルチエージェント推論フレームワークを提案する。
- 参考スコア(独自算出の注目度): 17.81116161163605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Amodal completion, generating invisible parts of occluded objects, is vital for applications like image editing and AR. Prior methods face challenges with data needs, generalization, or error accumulation in progressive pipelines. We propose a Collaborative Multi-Agent Reasoning Framework based on upfront collaborative reasoning to overcome these issues. Our framework uses multiple agents to collaboratively analyze occlusion relationships and determine necessary boundary expansion, yielding a precise mask for inpainting. Concurrently, an agent generates fine-grained textual descriptions, enabling Fine-Grained Semantic Guidance. This ensures accurate object synthesis and prevents the regeneration of occluders or other unwanted elements, especially within large inpainting areas. Furthermore, our method directly produces layered RGBA outputs guided by visible masks and attention maps from a Diffusion Transformer, eliminating extra segmentation. Extensive evaluations demonstrate our framework achieves state-of-the-art visual quality.
- Abstract(参考訳): 隠されたオブジェクトの見えない部分を生成するアモーダルコンプリートは、画像編集やARといったアプリケーションには不可欠である。
従来の手法では、プログレッシブパイプラインにおけるデータ要求、一般化、エラーの蓄積といった課題に直面していた。
本稿では,これらの問題を克服するための先行的協調推論に基づく協調的マルチエージェント推論フレームワークを提案する。
本フレームワークでは,複数のエージェントを用いてオクルージョン関係を協調的に解析し,必要な境界展開を決定する。
同時に、エージェントは、きめ細かいテキスト記述を生成して、きめ細かいセマンティックガイダンスを可能にする。
これにより、正確なオブジェクト合成が保証され、特に大きな塗布領域において、オククローダやその他の望ましくない要素の再生が防止される。
さらに,ディフュージョン変換器から可視マスクやアテンションマップで案内される層状RGBA出力を直接生成し,余分なセグメンテーションを除去する。
大規模な評価は、我々のフレームワークが最先端の視覚的品質を達成することを示す。
関連論文リスト
- Beyond Artificial Misalignment: Detecting and Grounding Semantic-Coordinated Multimodal Manipulations [56.816929931908824]
マルチモーダルデータにおける意味的協調操作の検出の先駆者となった。
本稿では,RamDG(Retrieval-Augmented Manipulation Detection and Grounding)フレームワークを提案する。
我々のフレームワークは既存の手法よりも優れており、SAMMの精度は最先端の手法に比べて2.06%高い。
論文 参考訳(メタデータ) (2025-09-16T04:18:48Z) - Less is More: Empowering GUI Agent with Context-Aware Simplification [62.02157661751793]
我々は,SimpAgentと呼ばれる,効率的かつ効果的なGUIエージェントを構築するためのコンテキスト認識フレームワークを提案する。
上記のコンポーネントにより、SimpAgentは27%のFLOPを削減し、優れたGUIナビゲーション性能を実現する。
論文 参考訳(メタデータ) (2025-07-04T17:37:15Z) - MCCD: Multi-Agent Collaboration-based Compositional Diffusion for Complex Text-to-Image Generation [15.644911934279309]
拡散モデルはテキスト・画像生成において優れた性能を示した。
複雑なシーンに対するテキスト・画像生成のための多エージェント協調型合成拡散法を提案する。
論文 参考訳(メタデータ) (2025-05-05T13:50:03Z) - Marmot: Object-Level Self-Correction via Multi-Agent Reasoning [55.74860093731475]
Marmotは、マルチオブジェクトの自己修正にマルチエージェント推論を活用する、新しくて一般化可能なフレームワークである。
Marmotは、画像生成タスクにおけるオブジェクトカウント、属性割り当て、空間関係の精度を大幅に改善する。
論文 参考訳(メタデータ) (2025-04-10T16:54:28Z) - Multi-task Visual Grounding with Coarse-to-Fine Consistency Constraints [15.541287957548771]
本稿では,粗大な一貫性制約を持つビジュアルグラウンドアーキテクチャを提案する。
暗黙的かつ明示的なモデリングアプローチを2段階のフレームワークに統合する。
最先端のREC法とRIS法を実質的なマージンで大幅に上回っている。
論文 参考訳(メタデータ) (2025-01-12T04:30:13Z) - Comprehensive Generative Replay for Task-Incremental Segmentation with Concurrent Appearance and Semantic Forgetting [49.87694319431288]
一般的なセグメンテーションモデルは、異なる画像ソースからの様々なオブジェクトを含む様々なタスクに対して、ますます好まれている。
画像とマスクのペアを合成することで外観と意味の知識を復元する包括的生成(CGR)フレームワークを提案する。
漸進的タスク(心身、基礎、前立腺のセグメンテーション)の実験は、同時出現と意味的忘れを緩和する上で、明らかな優位性を示している。
論文 参考訳(メタデータ) (2024-06-28T10:05:58Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z) - Self-Supervised Scene De-occlusion [186.89979151728636]
本稿では,隠蔽対象の隠蔽順序を復元し,隠蔽対象の見えない部分を完成させることを目的としたシーン非隠蔽問題について検討する。
そこで本研究では,隠されたシーン構造を監視対象として指示やアモーダルアノテーションを使わずに復元する,新規で統一的なフレームワークを用いて,この問題に対処する試みを行う。
そこで,PCNet-M と PCNet-C をベースとして,プログレッシブ・オーダリング・リカバリ,アモーダル・コンプリーメント,コンテント・コンプリートを通じてシーン・デオクルージョンを実現する新しい推論手法を考案した。
論文 参考訳(メタデータ) (2020-04-06T16:31:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。