論文の概要: Learning Proposes, Geometry Disposes: A Modular Framework for Efficient Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2602.14409v1
- Date: Mon, 16 Feb 2026 02:26:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.05077
- Title: Learning Proposes, Geometry Disposes: A Modular Framework for Efficient Spatial Reasoning
- Title(参考訳): 空間的推論を効果的にするためのモジュラーフレームワーク
- Authors: Haichao Zhu, Zhaorui Yang, Qian Zhang,
- Abstract要約: 空間知覚は、視覚的観察からカメラの動きとシーン構造を推定することを目的としている。
近年の学習に基づく手法は幾何学的知覚に強い表現能力を示している。
本研究では,効率的な空間推論のためのエンドツーエンドのモジュラー・フレームワークについて検討する。
- 参考スコア(独自算出の注目度): 3.5072793256984105
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatial perception aims to estimate camera motion and scene structure from visual observations, a problem traditionally addressed through geometric modeling and physical consistency constraints. Recent learning-based methods have demonstrated strong representational capacity for geometric perception and are increasingly used to augment classical geometry-centric systems in practice. However, whether learning components should directly replace geometric estimation or instead serve as intermediate modules within such pipelines remains an open question. In this work, we address this gap and investigate an end-to-end modular framework for effective spatial reasoning, where learning proposes geometric hypotheses, while geometric algorithms dispose estimation decisions. In particular, we study this principle in the context of relative camera pose estimation on RGB-D sequences. Using VGGT as a representative learning model, we evaluate learning-based pose and depth proposals under varying motion magnitudes and scene dynamics, followed by a classical point-to-plane RGB-D ICP as the geometric backend. Our experiments on the TUM RGB-D benchmark reveal three consistent findings: (1) learning-based pose proposals alone are unreliable; (2) learning-proposed geometry, when improperly aligned with camera intrinsics, can degrade performance; and (3) when learning-proposed depth is geometrically aligned and followed by a geometric disposal stage, consistent improvements emerge in moderately challenging rigid settings. These results demonstrate that geometry is not merely a refinement component, but an essential arbiter that validates and absorbs learning-based geometric observations. Our study highlights the importance of modular, geometry-aware system design for robust spatial perception.
- Abstract(参考訳): 空間知覚は視覚的観察からカメラの動きとシーン構造を推定することを目的としている。
近年の学習に基づく手法は、幾何学的知覚において強力な表現能力を示し、古典的幾何学中心のシステムの拡張にますます利用されている。
しかし、学習コンポーネントが幾何学的推定を直接置き換えるべきなのか、それともパイプライン内の中間モジュールとして機能すべきなのかは未解決のままである。
本研究では, このギャップに対処し, 学習が幾何仮説を提案し, 幾何アルゴリズムが推定決定を解き放つような, 効果的な空間推論のためのエンドツーエンドのモジュラー・フレームワークについて検討する。
特に,RGB-D系列の相対カメラポーズ推定の文脈において,この原理を考察する。
本稿では,VGGTを代表的な学習モデルとして用い,動きの大きさやシーンの動態の異なる学習ベースのポーズと深さの提案を評価し,次に幾何学的バックエンドとして古典的なRGB-D ICPを用いた。
筆者らのTUM RGB-Dベンチマーク実験では,(1)学習に基づくポーズ提案だけでは信頼性が低い,(2)学習提案幾何がカメラ内在に不適合な場合には性能を低下させる,(3)学習提案深度が幾何的に整列され,次いで幾何学的処理段階が続く,という3つの一貫した結果が得られた。
これらの結果は、幾何学は単なる洗練要素ではなく、学習に基づく幾何学的観察を検証し吸収する必須のアービターであることを示している。
本研究は,ロバストな空間知覚のためのモジュラー・幾何学的システム設計の重要性を強調した。
関連論文リスト
- TangramPuzzle: Evaluating Multimodal Large Language Models with Compositional Spatial Reasoning [104.66714520975837]
古典的タングラムゲームのレンズを通して構成空間推論を評価するために,幾何グラウンドのベンチマークを導入する。
本稿では,タングラム集合を正確に機械で検証可能な座標仕様でグルーピングする記号幾何学的枠組みであるタングラム構成式(TCE)を提案する。
MLLMは、幾何学的制約を無視しながら、ターゲットのシルエットとのマッチングを優先する傾向がある。
論文 参考訳(メタデータ) (2026-01-23T07:35:05Z) - NoReGeo: Non-Reasoning Geometry Benchmark [5.288175082601994]
NoReGeoは、大規模言語モデル(LLM)の固有の幾何学的理解を評価するために設計された新しいベンチマークである。
我々のベンチマークは25のカテゴリにまたがる2500の自明な幾何学的問題で構成されており、それぞれがネイティブな幾何学的理解を通じて純粋に解けるように慎重に設計されている。
我々は、GPT-4のようなフロンティアモデルを含むNoReGeo上の最先端モデルの範囲を評価し、最も先進的なシステムでさえバイナリ分類タスクにおいて、全体的な最大65%の精度を達成することを観察した。
論文 参考訳(メタデータ) (2026-01-15T10:22:55Z) - Physics-Informed Neural Networks for MIMO Beam Map and Environment Reconstruction [67.65578956523403]
ネットワークインテリジェンスを用いて物理層計測をブリッジするための重要な手法として,チャネル状態情報(CSI)からの幾何学的特徴抽出が出現する。
本稿では, 受信信号強度(RSS)データを3次元環境知識なしで探索し, 放射光マップと環境幾何学を共同構築することを提案する。
反射領域に基づく幾何モデルを含む物理インフォームドディープラーニングフレームワークを提案し, ブロック, 反射, 散乱成分の学習を行った。
論文 参考訳(メタデータ) (2025-10-24T08:17:14Z) - GIQ: Benchmarking 3D Geometric Reasoning of Vision Foundation Models with Simulated and Real Polyhedra [33.53387523266523]
本稿では,視覚モデルと視覚言語基礎モデルの幾何学的推論能力を評価するためのベンチマークであるGIQを紹介する。
GIQは224種類の多面体からなる合成および実世界の画像からなる。
論文 参考訳(メタデータ) (2025-06-09T20:11:21Z) - Geometric Point Attention Transformer for 3D Shape Reassembly [17.34739330880715]
本稿では,幾何学的関係に関する推論の課題に対処するネットワークを提案する。
我々は大域的な形状情報と局所的な対幾何学的特徴と、各部分の回転ベクトルや変換ベクトルとして表されるポーズを統合する。
意味的および幾何学的組立作業におけるモデルの評価を行い、絶対的なポーズ推定において従来の手法よりも優れていたことを示す。
論文 参考訳(メタデータ) (2024-11-26T15:29:38Z) - Adaptive Surface Normal Constraint for Geometric Estimation from Monocular Images [56.86175251327466]
本稿では,幾何学的文脈を取り入れつつ,画像から深度や表面正規度などの測地を学習するための新しい手法を提案する。
提案手法は,入力画像に存在する幾何学的変動を符号化した幾何学的文脈を抽出し,幾何的制約と深度推定を相関付ける。
本手法は,画像から高品質な3次元形状を生成可能な密着型フレームワーク内での深度と表面の正規分布推定を統一する。
論文 参考訳(メタデータ) (2024-02-08T17:57:59Z) - DONet: Learning Category-Level 6D Object Pose and Size Estimation from
Depth Observation [53.55300278592281]
単一深度画像からカテゴリレベルの6次元オブジェクト・ポースとサイズ推定(COPSE)を提案する。
筆者らのフレームワークは,深度チャネルのみの物体のリッチな幾何学的情報に基づいて推論を行う。
我々のフレームワークは、ラベル付き現実世界の画像を必要とする最先端のアプローチと競合する。
論文 参考訳(メタデータ) (2021-06-27T10:41:50Z) - Self-supervised Geometric Perception [96.89966337518854]
自己教師付き幾何知覚(self-supervised geometric perception)は、基底幾何モデルラベルなしで対応マッチングのための特徴記述子を学ぶためのフレームワークである。
また,SGPは,地上トラスラベルを用いて訓練した教師付きオークルよりも同等か優れる最先端性能を達成できることを示す。
論文 参考訳(メタデータ) (2021-03-04T15:34:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。