論文の概要: A3R: Agentic Affordance Reasoning via Cross-Dimensional Evidence in 3D Gaussian Scenes
- arxiv url: http://arxiv.org/abs/2604.01882v1
- Date: Thu, 02 Apr 2026 10:40:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.687638
- Title: A3R: Agentic Affordance Reasoning via Cross-Dimensional Evidence in 3D Gaussian Scenes
- Title(参考訳): A3R:3次元ガウスシーンにおける3次元エビデンスによるエージェントアクダクタンス推論
- Authors: Di Li, Jie Feng, Guanbin Li, Ronghua Shang, Yuhui Zheng, Weisheng Dong, Guangming Shi,
- Abstract要約: Affordance reasoningは、複雑な環境で与えられたテキスト命令によって指定されたアクションをサポートする領域を特定することを目的としている。
本稿では,MLLMに基づく政策が証拠取得行動の反復的選択を可能にするエージェント・アベイランス推論フレームワークであるA3Rを提案する。
シーンレベルのベンチマークの実験では、A3Rは静的なワンショットベースラインを一貫して上回っている。
- 参考スコア(独自算出の注目度): 115.37391672369914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Affordance reasoning in 3D Gaussian scenes aims to identify the region that supports the action specified by a given text instruction in complex environments. Existing methods typically cast this problem as one-shot prediction from static scene observations, assuming sufficient evidence is already available for reasoning. However, in complex 3D scenes, many failure cases arise not from weak prediction capacity, but from incomplete task-relevant evidence under fixed observations. To address this limitation, we reformulate fine-grained affordance reasoning as a sequential evidence acquisition process, where ambiguity is progressively reduced through complementary 3D geometric and 2D semantic evidence. Building on this formulation, we propose A3R, an agentic affordance reasoning framework that enables an MLLM-based policy to iteratively select evidence acquisition actions and update the affordance belief through cross-dimensional evidence acquisition. To optimize such sequential decision making, we further introduce a GRPO-based policy learning strategy that improves evidence acquisition efficiency and reasoning accuracy. Extensive experiments on scene-level benchmarks show that A3R consistently surpasses static one-shot baselines, demonstrating the advantage of agentic cross-dimensional evidence acquisition for fine-grained affordance reasoning in complex 3D Gaussian scenes.
- Abstract(参考訳): 3Dガウスのシーンにおける順応推論は、複雑な環境で与えられたテキスト命令によって指定されたアクションをサポートする領域を特定することを目的としている。
既存の手法では、この問題を静的なシーンの観測から1ショットの予測として捉えており、推論に十分な証拠が既に存在すると仮定している。
しかし、複雑な3Dシーンでは、多くの障害ケースは予測能力の弱さではなく、不完全なタスク関連証拠から生じる。
この制限に対処するため、我々は、相補的な3次元幾何的および2次元のセマンティックエビデンスを通じて曖昧さを段階的に低減するシーケンシャルエビデンス獲得プロセスとして、きめ細かな測度推論を再構成する。
この定式化に基づいて,MLLMベースの政策を反復的にエビデンス獲得行動を選択し,アビデンス獲得を通じてアビデンス信念を更新することのできるエージェント型アビデンス推論フレームワークであるA3Rを提案する。
このようなシーケンシャルな意思決定を最適化するために、証拠取得効率と推論精度を向上させるGRPOベースのポリシー学習戦略を導入する。
シーンレベルのベンチマークによる大規模な実験により、A3Rは静的なワンショットベースラインを一貫して上回り、複雑な3次元ガウスのシーンにおけるきめ細かい価格推論のためのエージェント的クロス次元エビデンス獲得の利点を示す。
関連論文リスト
- GaussExplorer: 3D Gaussian Splatting for Embodied Exploration and Reasoning [55.826192239140596]
GaussExplorerは3D Gaussian Splatting(3DGS)上に構築されたボディード探索と推論のためのフレームワークである
3DGS上に視覚言語モデル(VLM)を導入し、3Dシーン内で質問駆動探索と推論を可能にする。
論文 参考訳(メタデータ) (2026-01-19T15:17:58Z) - Mono3DV: Monocular 3D Object Detection with 3D-Aware Bipartite Matching and Variational Query DeNoising [0.6423989407081764]
Mono3DVは3Dオブジェクト検出のためのトランスフォーマーベースの新しいフレームワークである。
我々は,3次元幾何情報を直接マッチングコストに組み込む3D-Aware Bipartite Matching戦略を開発した。
第二に、3D属性を統合する際に生じる不安定性を解決するために、バイパートマッチングを安定化させることが重要である。
論文 参考訳(メタデータ) (2026-01-03T02:06:28Z) - Photorealistic Phantom Roads in Real Scenes: Disentangling 3D Hallucinations from Physical Geometry [17.571800971505787]
本稿では、この不確実な安全性リスクを調査、定量化、テーム化する、エンドツーエンドのフレームワークを初めて紹介する。
提案する3D-Mirageは,正確な平面領域アノテーションと文脈制限作物を用いた実世界のイリュージョンの最初のベンチマークである。
そこで本稿では,非平面性向上のためのDefiation Composite Score (DCS) と文脈不安定性評価のためのConfusion Composite Score (CCS) の2つの指標を用いたラプラシアン評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-17T13:14:37Z) - OracleGS: Grounding Generative Priors for Sparse-View Gaussian Splatting [78.70702961852119]
OracleGSは、Gaussian Splattingのスパースビューのために、生成的完全性と回帰的忠実性を調整している。
提案手法は,多視点幾何学的証拠に先立って強力な生成条件を定め,幻覚的アーティファクトをフィルタリングし,非拘束領域における可塑性完備を保存している。
論文 参考訳(メタデータ) (2025-09-27T11:19:32Z) - Distractor-free Generalizable 3D Gaussian Splatting [26.762275313390194]
DGGSは、未発見の課題に対処する新しいフレームワークである。 $textbfDistractor-free Generalizable 3D Gaussian Splatting$ (3DGS)。
クロスシーンの一般化可能な列車設定におけるトラクタデータによる3次元不整合とトレーニング不安定性を緩和する。
我々の一般化可能なマスク予測は、既存のシーン固有の訓練方法よりも精度が高い。
論文 参考訳(メタデータ) (2024-11-26T17:17:41Z) - 3D-Prover: Diversity Driven Theorem Proving With Determinantal Point Processes [17.379356401253986]
自動形式推論における重要な課題は、証明の深さとともに指数関数的に成長する、難解な探索空間である。
セマンティックな多様性と高品質な戦術を活用する新しいフィルタリング機構を提案する。
提案手法は, 総合的な証明率の向上と, 戦術的成功率, 実行時間, 多様性の大幅な向上につながることを示す。
論文 参考訳(メタデータ) (2024-10-14T23:13:53Z) - ScanReason: Empowering 3D Visual Grounding with Reasoning Capabilities [23.18281583681258]
我々は3D推論基底と呼ばれる新しいタスクを提案し、新しいベンチマークScanReasonを導入する。
ScanReasonは、推論とグラウンドの相乗化を必要とする5つの推論タイプから10万以上の質問と回答のペアを提供する。
提案手法は, 推論において, 分岐推論と接地ステップにより, さらなる性能向上を図っている。
論文 参考訳(メタデータ) (2024-07-01T17:59:35Z) - 3D-QueryIS: A Query-based Framework for 3D Instance Segmentation [74.6998931386331]
従来の3Dインスタンスセグメンテーションの方法は、しばしばタスク間の依存関係と堅牢性の欠如の傾向を維持する。
本稿では,3D-QueryISと呼ばれる新しい問合せ方式を提案する。
私たちの3D-QueryISは、タスク間の依存関係による累積エラーから解放されています。
論文 参考訳(メタデータ) (2022-11-17T07:04:53Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。