論文の概要: Reasoning-Driven Amodal Completion: Collaborative Agents and Perceptual Evaluation
- arxiv url: http://arxiv.org/abs/2512.20936v1
- Date: Wed, 24 Dec 2025 04:39:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.677654
- Title: Reasoning-Driven Amodal Completion: Collaborative Agents and Perceptual Evaluation
- Title(参考訳): 推論駆動型アモーダルコンプリート:協調エージェントと知覚的評価
- Authors: Hongxing Fan, Shuyu Zhao, Jiayang Ao, Lu Sheng,
- Abstract要約: 本稿では,視覚合成から意味的計画を明確に分離する協調的マルチエージェント推論フレームワークを提案する。
提案手法は,画素生成前の構造的,明示的なプランを生成し,視覚的,意味的に整合した単一パス合成を可能にする。
従来の評価基準の限界に対処し,新しい人間対応評価指標MAC-Scoreを導入する。
- 参考スコア(独自算出の注目度): 17.405818788700234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Amodal completion, the task of inferring invisible object parts, faces significant challenges in maintaining semantic consistency and structural integrity. Prior progressive approaches are inherently limited by inference instability and error accumulation. To tackle these limitations, we present a Collaborative Multi-Agent Reasoning Framework that explicitly decouples Semantic Planning from Visual Synthesis. By employing specialized agents for upfront reasoning, our method generates a structured, explicit plan before pixel generation, enabling visually and semantically coherent single-pass synthesis. We integrate this framework with two critical mechanisms: (1) a self-correcting Verification Agent that employs Chain-of-Thought reasoning to rectify visible region segmentation and identify residual occluders strictly within the Semantic Planning phase, and (2) a Diverse Hypothesis Generator that addresses the ambiguity of invisible regions by offering diverse, plausible semantic interpretations, surpassing the limited pixel-level variations of standard random seed sampling. Furthermore, addressing the limitations of traditional metrics in assessing inferred invisible content, we introduce the MAC-Score (MLLM Amodal Completion Score), a novel human-aligned evaluation metric. Validated against human judgment and ground truth, these metrics establish a robust standard for assessing structural completeness and semantic consistency with visible context. Extensive experiments demonstrate that our framework significantly outperforms state-of-the-art methods across multiple datasets. Our project is available at: https://fanhongxing.github.io/remac-page.
- Abstract(参考訳): 目に見えない対象部品を推測するタスクであるアモーダル補完は、意味的一貫性と構造的整合性を維持する上で大きな課題に直面している。
従来の先進的なアプローチは、推論不安定性とエラーの蓄積によって本質的に制限されている。
これらの制約に対処するため,視覚合成から意味的計画を明確に分離する協調的マルチエージェント推論フレームワークを提案する。
先行推論に特殊エージェントを用いることで、画素生成前に構造化された明示的なプランを生成し、視覚的かつセマンティックにコヒーレントな単一パス合成を可能にする。
この枠組みを,(1)目に見える領域分割を補正し,セマンティックプランニングフェーズ内で厳密な隠蔽者を同定する自己補正検証エージェント,(2)目に見える領域のあいまいさに対処し,多種多様な意味論的解釈を提供することにより,標準的なランダムシードサンプリングのピクセルレベルに制限されたバリエーションを超越した逆仮説生成装置の2つの重要なメカニズムと統合する。
さらに,予測不可能なコンテンツの評価における従来の指標の限界に対処し,新しい人間対応評価尺度であるMACスコア(MLLM Amodal Completion Score)を導入する。
人間の判断と根拠的真実に対して検証されたこれらの指標は、可視的コンテキストによる構造的完全性と意味的整合性を評価するための堅牢な標準を確立する。
大規模な実験により、我々のフレームワークは複数のデータセットで最先端の手法を大幅に上回っていることが示された。
私たちのプロジェクトは、https://fanhongxing.github.io/remac-page.comで利用可能です。
関連論文リスト
- Non-Resolution Reasoning (NRR): A Computational Framework for Contextual Identity and Ambiguity Preservation [0.0]
現在の人工知能システムは、曖昧さを早期に解決する、基本的なアーキテクチャ上の限界を示す。
この早期のセマンティック崩壊は、標準的なニューラルネットワークに埋め込まれた古典的なアイデンティティの仮定に由来する。
あいまいさ保持を有効な推論モードとして扱う計算フレームワークであるNon-Resolution Reasoning (NRR)を提案する。
論文 参考訳(メタデータ) (2025-12-15T16:14:32Z) - METER: Multi-modal Evidence-based Thinking and Explainable Reasoning -- Algorithm and Benchmark [48.78602579128459]
本稿では,画像,ビデオ,音声,映像コンテンツにまたがる偽造検出のための統合ベンチマークMETERを紹介する。
我々のデータセットは4つのトラックから構成されており、それぞれのトラックは実際のvsフェイク分類だけでなく、エビデンスチェーンに基づく説明も必要である。
論文 参考訳(メタデータ) (2025-07-22T03:42:51Z) - Estimating Commonsense Plausibility through Semantic Shifts [66.06254418551737]
セマンティックシフトを測定することでコモンセンスの妥当性を定量化する新しい識別フレームワークであるComPaSSを提案する。
2種類の細粒度コモンセンス可視性評価タスクの評価は,ComPaSSが一貫してベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-19T06:31:06Z) - Multi-task Visual Grounding with Coarse-to-Fine Consistency Constraints [15.541287957548771]
本稿では,粗大な一貫性制約を持つビジュアルグラウンドアーキテクチャを提案する。
暗黙的かつ明示的なモデリングアプローチを2段階のフレームワークに統合する。
最先端のREC法とRIS法を実質的なマージンで大幅に上回っている。
論文 参考訳(メタデータ) (2025-01-12T04:30:13Z) - Tackling Ambiguity from Perspective of Uncertainty Inference and Affinity Diversification for Weakly Supervised Semantic Segmentation [12.308473939796945]
画像レベルのラベルを持つ弱教師付きセマンティックセマンティックセグメンテーション(WSSS)は、退屈なアノテーションを使わずに高密度なタスクを実現することを目的としている。
WSSSの性能、特にクラス活性化マップ(CAM)の生成と擬似マスクの精製の段階では、あいまいさに悩まされている。
統一された単一ステージWSSSフレームワークであるUniAを提案し、不確実性推論と親和性多様化の観点からこの問題に対処する。
論文 参考訳(メタデータ) (2024-04-12T01:54:59Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。
この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。
本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-08T04:09:13Z) - Dive into Ambiguity: Latent Distribution Mining and Pairwise Uncertainty
Estimation for Facial Expression Recognition [59.52434325897716]
DMUE(DMUE)という,アノテーションのあいまいさを2つの視点から解決するソリューションを提案する。
前者に対しては,ラベル空間における潜伏分布をよりよく記述するために,補助的マルチブランチ学習フレームワークを導入する。
後者の場合、インスタンス間の意味的特徴のペアワイズ関係を完全に活用して、インスタンス空間のあいまいさの程度を推定する。
論文 参考訳(メタデータ) (2021-04-01T03:21:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。