論文の概要: Beyond Pixels: Introducing Geometric-Semantic World Priors for Video-based Embodied Models via Spatio-temporal Alignment
- arxiv url: http://arxiv.org/abs/2509.00210v1
- Date: Fri, 29 Aug 2025 19:47:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.127983
- Title: Beyond Pixels: Introducing Geometric-Semantic World Priors for Video-based Embodied Models via Spatio-temporal Alignment
- Title(参考訳): Beyond Pixels: 時空間アライメントによるビデオベースの身体モデルのための幾何学的セマンティックワールドプライオリティの導入
- Authors: Jinzhou Tang, Jusheng zhang, Sidi Liu, Waikit Xiu, Qinhan Lv, Xiying Li,
- Abstract要約: VEMEは、未知の環境における複雑なタスクのためのディープラーニングモデルにおいて、人間のような推論を実現するための新しい方法である。
本フレームワークは,(1)オブジェクト,空間表現,視覚的意味論を時間的手がかりでブリッジするクロスランゲージアライメントフレームワーク,(2)タスク関連メモリリコールを可能にする動的で暗黙的な認知活性化世界埋め込み,(3)長期計画と効率的な探索のための指示に基づくナビゲーションと推論の3つの重要な構成要素を統合する。
- 参考スコア(独自算出の注目度): 2.9493863710375674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Achieving human-like reasoning in deep learning models for complex tasks in unknown environments remains a critical challenge in embodied intelligence. While advanced vision-language models (VLMs) excel in static scene understanding, their limitations in spatio-temporal reasoning and adaptation to dynamic, open-set tasks like task-oriented navigation and embodied question answering (EQA) persist due to inadequate modeling of fine-grained spatio-temporal cues and physical world comprehension. To address this, we propose VEME, a novel cross-modal alignment method that enhances generalization in unseen scenes by learning an ego-centric, experience-centered world model. Our framework integrates three key components: (1) a cross-modal alignment framework bridging objects, spatial representations, and visual semantics with spatio-temporal cues to enhance VLM in-context learning; (2) a dynamic, implicit cognitive map activated by world embedding to enable task-relevant geometric-semantic memory recall; and (3) an instruction-based navigation and reasoning framework leveraging embodied priors for long-term planning and efficient exploration. By embedding geometry-aware spatio-temporal episodic experiences, our method significantly improves reasoning and planning in dynamic environments. Experimental results on VSI-Bench and VLN-CE demonstrate 1%-3% accuracy and exploration efficiency improvement compared to traditional approaches.
- Abstract(参考訳): 未知の環境における複雑なタスクのためのディープラーニングモデルにおける人間のような推論を実現することは、インテリジェンスを具現化する上で重要な課題である。
高度な視覚言語モデル(VLM)は静的な場面理解において優れているが、時空間推論における制限やタスク指向ナビゲーションや具体的質問応答(EQA)のような動的でオープンなタスクへの適応は、微粒な時空間キューと物理世界理解の不十分なモデリングによって継続する。
そこで本研究では,エゴ中心の体験中心の世界モデルを学ぶことによって,見えないシーンの一般化を促進する,新たなモーダルアライメント手法VEMEを提案する。
本フレームワークは,(1)オブジェクト,空間表現,視覚的意味論を時空間的手法でブリッジし,VLMの文脈内学習を強化すること,(2)世界埋め込みによって活性化される動的で暗黙的な認知マップをタスク関連幾何学的メモリリコールを可能にすること,(3)長期計画と効率的な探索のために具体化された事前情報を活用すること,の3つの重要な構成要素を統合している。
幾何学を意識した時空間エピソード体験を組み込むことで,動的環境における推論と計画を大幅に改善する。
VSI-BenchとVLN-CEの実験結果から,従来のアプローチに比べて1%-3%の精度と探索効率の改善が示された。
関連論文リスト
- VLM4D: Towards Spatiotemporal Awareness in Vision Language Models [66.833085504228]
V4DLMは視覚言語モデル(VLM)を評価するために設計された最初のベンチマークである。
本ベンチマークは,質問応答対を慎重にキュレートした,多様な実世界および合成ビデオで構成されている。
我々は,既存のモデルにおける基本的欠陥を浮き彫りにして,人間のベースラインと比較して重要なパフォーマンスギャップを識別する。
論文 参考訳(メタデータ) (2025-08-04T06:06:06Z) - Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing [62.447497430479174]
空間における推論への描画は、視覚空間における基本的な描画操作を通じてLVLMを推論できる新しいパラダイムである。
我々のモデルはVILASRと呼ばれ、様々な空間推論ベンチマークで既存の手法より一貫して優れています。
論文 参考訳(メタデータ) (2025-06-11T17:41:50Z) - SITE: towards Spatial Intelligence Thorough Evaluation [121.1493852562597]
空間知能 (Spatial Intelligence, SI) は、空間的関係の可視化、操作、推論を含む認知能力を表す。
SI Thorough Evaluationに向けたベンチマークデータセットであるSITEを紹介する。
ベンチマークの計算には、31の既存のデータセットに関するボトムアップ調査と、認知科学の3つの分類システムに基づくトップダウン戦略を組み合わせる。
論文 参考訳(メタデータ) (2025-05-08T17:45:44Z) - EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks [24.41705039390567]
EmbodiedVSR (Embodied Visual Space Reasoning) は動的シーングラフ誘導型Chain-of-Thought (CoT)推論を統合する新しいフレームワークである。
本手法はタスク固有の微調整なしでゼロショット空間推論を可能にする。
実験により,我々のフレームワークは,既存のMLLM法よりも精度と推論コヒーレンスにおいて優れていることが示された。
論文 参考訳(メタデータ) (2025-03-14T05:06:07Z) - Continual Visual Reinforcement Learning with A Life-Long World Model [55.05017177980985]
視覚力学モデリングのための新しい連続学習手法を提案する。
まず,タスク固有の潜在ダイナミクスを学習する長寿命世界モデルを紹介する。
そして,探索・保守的行動学習手法を用いて,過去の課題に対する価値推定問題に対処する。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - SASRA: Semantically-aware Spatio-temporal Reasoning Agent for
Vision-and-Language Navigation in Continuous Environments [7.5606260987453116]
本稿では,連続3次元環境における視覚・言語ナビゲーション(VLN)タスクに対する新しいアプローチを提案する。
既存のエンド・ツー・エンドの学習手法は、主に生の視覚的観察に焦点を当てているため、この課題に苦慮している。
本稿では,古典的意味マッピング手法と学習に基づく手法を組み合わせることに焦点を当てたハイブリッドトランスフォーマー・リカレンスモデルを提案する。
論文 参考訳(メタデータ) (2021-08-26T17:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。