論文の概要: Spatial-Conditioned Reasoning in Long-Egocentric Videos
- arxiv url: http://arxiv.org/abs/2601.18100v1
- Date: Mon, 26 Jan 2026 03:21:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.641964
- Title: Spatial-Conditioned Reasoning in Long-Egocentric Videos
- Title(参考訳): 長自由度ビデオにおける空間調和型推論
- Authors: James Tribble, Hao Wang, Si-En Hong, Chaoyi Zhou, Ashish Bastola, Siyu Huang, Abolfazl Razi,
- Abstract要約: ロングホライゾン・エゴセントリックビデオは、視線ドリフトと永続的幾何学的文脈の欠如による視覚ナビゲーションの重大な課題を提示する。
本研究では,空間的信号がモデルアーキテクチャや推論手順を変更することなく,VLMに基づく映像理解にどのように影響するかを検討する。
- 参考スコア(独自算出の注目度): 17.314383569244303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-horizon egocentric video presents significant challenges for visual navigation due to viewpoint drift and the absence of persistent geometric context. Although recent vision-language models perform well on image and short-video reasoning, their spatial reasoning capability in long egocentric sequences remains limited. In this work, we study how explicit spatial signals influence VLM-based video understanding without modifying model architectures or inference procedures. We introduce Sanpo-D, a fine-grained re-annotation of the Google Sanpo dataset, and benchmark multiple VLMs on navigation-oriented spatial queries. To examine input-level inductive bias, we further fuse depth maps with RGB frames and evaluate their impact on spatial reasoning. Our results reveal a trade-off between general-purpose accuracy and spatial specialization, showing that depth-aware and spatially grounded representations can improve performance on safety-critical tasks such as pedestrian and obstruction detection.
- Abstract(参考訳): ロングホライゾン・エゴセントリックビデオは、視線ドリフトと永続的幾何学的文脈の欠如による視覚ナビゲーションの重大な課題を提示する。
近年の視覚言語モデルは画像やショートビデオの推論において良好に機能するが、長い自我中心列における空間的推論能力は依然として限られている。
本研究では,空間的信号がモデルアーキテクチャや推論手順を変更することなく,VLMに基づく映像理解にどのように影響するかを検討する。
Google Sanpoデータセットの詳細な再アノテーションであるSanpo-Dを導入し、ナビゲーション指向空間クエリで複数のVLMをベンチマークする。
入力レベルの帰納バイアスを調べるため、RGBフレームで深度マップをさらに融合し、空間的推論への影響を評価する。
以上の結果から,歩行者や障害物検出などの安全クリティカルな作業において,奥行き認識と空間的接地表現が性能を向上させることが示唆された。
関連論文リスト
- REM: Evaluating LLM Embodied Spatial Reasoning through Multi-Frame Trajectories [19.741468026765062]
本稿では,空間推論のための制御可能な3次元環境を用いたベンチマークREM(Reasoning over Embodied Multi-Frame Trajectories)を紹介する。
REMは、オブジェクトの永続性/識別、空間的関係、動的エンボディされた視点における数値的追跡などの重要な側面を体系的に評価する。
評価の結果、最高の性能を示す現在のモデルでは、全体的な性能が期待できるが、人間によって容易に扱える程度の複雑性レベルでは信頼性が低下していることがわかった。
論文 参考訳(メタデータ) (2025-11-30T05:20:22Z) - Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks [108.15756345836901]
大規模モデルを用いたマルチモーダル空間推論タスクの包括的レビューを行う。
我々は、視覚言語ナビゲーションやアクションモデルを含む、具体的AIの進歩についてレビューする。
我々は,新しいセンサによる空間的理解に寄与する音声やエゴセントリックビデオなどの新たなモダリティを考察する。
論文 参考訳(メタデータ) (2025-10-29T17:55:43Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。
次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文 参考訳(メタデータ) (2025-03-25T14:34:06Z) - Beyond Semantics: Rediscovering Spatial Awareness in Vision-Language Models [13.768090541138571]
視覚言語モデル(VLM)はオブジェクトの識別と記述に優れるが、しばしば空間的推論では失敗する。
視覚トークンの埋め込みは、テキストトークンよりもはるかに大きな規範を持っている。
視覚トークンとシステムが注目を惹きつけることを明らかにするツール。
論文 参考訳(メタデータ) (2025-03-21T17:51:14Z) - Why Is Spatial Reasoning Hard for VLMs? An Attention Mechanism Perspective on Focus Areas [69.56484419619919]
機械的解釈可能性のレンズによる空間的推論の課題について検討する。
空間的推論の成功は、実際の物体の位置と注意を一致させるモデルの能力と強く相関している。
本研究の目的は,ADAPTVISを用いて,信頼性の高い地域への注意を喚起することである。
論文 参考訳(メタデータ) (2025-03-03T17:57:03Z) - Occupancy Anticipation for Efficient Exploration and Navigation [97.17517060585875]
そこで我々は,エージェントが自我中心のRGB-D観測を用いて,その占有状態を可視領域を超えて推定する,占有予測を提案する。
エゴセントリックなビューとトップダウンマップの両方でコンテキストを活用することで、私たちのモデルは環境のより広いマップを予測できます。
われわれのアプローチは、2020 Habitat PointNav Challengeの優勝だ。
論文 参考訳(メタデータ) (2020-08-21T03:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。