論文の概要: Pursuing Minimal Sufficiency in Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2510.16688v1
- Date: Sun, 19 Oct 2025 02:29:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.09672
- Title: Pursuing Minimal Sufficiency in Spatial Reasoning
- Title(参考訳): 空間推論における最小効率の確保
- Authors: Yejie Guo, Yunzhong Hou, Wufei Ma, Meng Tang, Ming-Hsuan Yang,
- Abstract要約: 空間的推論、言語を3Dで理解する能力は、ビジョンモデルにとって永続的な課題である。
2次元の故障に起因する不適切な3D理解能力と冗長な3D情報である。
この原理を実装したデュアルエージェントフレームワークであるMS(空間空間)を導入する。
- 参考スコア(独自算出の注目度): 42.564463357503875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatial reasoning, the ability to ground language in 3D understanding, remains a persistent challenge for Vision-Language Models (VLMs). We identify two fundamental bottlenecks: inadequate 3D understanding capabilities stemming from 2D-centric pre-training, and reasoning failures induced by redundant 3D information. To address these, we first construct a Minimal Sufficient Set (MSS) of information before answering a given question: a compact selection of 3D perception results from \textit{expert models}. We introduce MSSR (Minimal Sufficient Spatial Reasoner), a dual-agent framework that implements this principle. A Perception Agent programmatically queries 3D scenes using a versatile perception toolbox to extract sufficient information, including a novel SOG (Situated Orientation Grounding) module that robustly extracts language-grounded directions. A Reasoning Agent then iteratively refines this information to pursue minimality, pruning redundant details and requesting missing ones in a closed loop until the MSS is curated. Extensive experiments demonstrate that our method, by explicitly pursuing both sufficiency and minimality, significantly improves accuracy and achieves state-of-the-art performance across two challenging benchmarks. Furthermore, our framework produces interpretable reasoning paths, offering a promising source of high-quality training data for future models. Source code is available at https://github.com/gyj155/mssr.
- Abstract(参考訳): 3次元理解における言語の基礎となる空間的推論は、視覚言語モデル(VLM)にとって永続的な課題である。
2D中心の事前学習から生じる不適切な3D理解能力と、冗長な3D情報によって引き起こされる推論失敗の2つの基本的なボトルネックを特定した。
これらの問題に対処するために、まず、与えられた質問に答える前に情報の最小十分集合(MSS)を構築する: \textit{expert model} による3次元知覚結果のコンパクトな選択。
本稿では,MSSR(Minimal Sufficient Space Reasoner)という,この原理を実装したデュアルエージェントフレームワークを紹介する。
知覚エージェントは、多目的認識ツールボックスを使用して3Dシーンをプログラム的にクエリして、言語接地方向を頑健に抽出する新しいSOGモジュールを含む十分な情報を抽出する。
その後、Reasoning Agentは、この情報を反復的に洗練し、最小限の情報を追求し、冗長な詳細を抽出し、MSSがキュレーションされるまでクローズドループで行方不明の情報を要求します。
拡張実験により,本手法は,有効性と最小性の両方を明示的に追従することにより,精度を大幅に向上し,2つの挑戦的ベンチマークで最先端の性能を達成することを示した。
さらに、我々のフレームワークは解釈可能な推論パスを生成し、将来のモデルに高品質なトレーニングデータを提供する。
ソースコードはhttps://github.com/gyj155/mssr.comで入手できる。
関連論文リスト
- 3D-AffordanceLLM: Harnessing Large Language Models for Open-Vocabulary Affordance Detection in 3D Worlds [81.14476072159049]
3D Affordance Detectionは、様々なロボットタスクの幅広い応用において難しい問題である。
我々は従来の割当検出パラダイムをテキスト推論改善(IRAS)タスクに再構成する。
本研究では,3次元オープンシーンにおけるアベイランス検出のためのフレームワークである3D-ADLLMを提案する。
論文 参考訳(メタデータ) (2025-02-27T12:29:44Z) - VEON: Vocabulary-Enhanced Occupancy Prediction [15.331332063879342]
本稿では,Vocabulary-Enhanced Occupancy predictioNのためのVEONを提案する。
VEONはOcc3D-nuScenesで15.14 mIoUを達成し、オープン語彙圏で物体を認識する能力を示している。
論文 参考訳(メタデータ) (2024-07-17T03:26:50Z) - FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with Pre-trained Vision-Language Models [59.13757801286343]
クラス増分学習(class-incremental learning)は、モデルが限られたデータで漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。
本稿では,特徴空間の不整合のための冗長特徴除去器 (RFE) と,重要な雑音に対する空間ノイズ補償器 (SNC) の2つの新しいコンポーネントを備えたFILP-3Dフレームワークを紹介する。
論文 参考訳(メタデータ) (2023-12-28T14:52:07Z) - Attention-Based Depth Distillation with 3D-Aware Positional Encoding for
Monocular 3D Object Detection [10.84784828447741]
ADDは、3D対応の位置符号化を備えた注意に基づく深度知識蒸留フレームワークである。
教師の設計によると、私たちのフレームワークはシームレスで、ドメインギャップフリーで、実装が容易で、オブジェクト指向の地層深度と互換性があります。
我々は,3つの代表的な単分子検出器上でのフレームワークを実装し,予測計算コストの増大を伴わず,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-11-30T06:39:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。