論文の概要: Seeing Space and Motion: Enhancing Latent Actions with Spatial and Dynamic Awareness for VLA
- arxiv url: http://arxiv.org/abs/2509.26251v1
- Date: Tue, 30 Sep 2025 13:41:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.150666
- Title: Seeing Space and Motion: Enhancing Latent Actions with Spatial and Dynamic Awareness for VLA
- Title(参考訳): 空間と運動を見る:VLAにおける空間的・動的認識による潜在行動の促進
- Authors: Zhejia Cai, Yandan Yang, Xinyuan Chang, Shiyi Liang, Ronghan Chen, Feng Xiong, Mu Xu, Ruqi Huang,
- Abstract要約: Latent Action Models (LAMs) は、視覚言語制御システムにおいて、大規模な無注釈データからセマンティック・アクション・リセプションを学習することを可能にする。
Farsighted-LAMを提案する。これは幾何学的空間符号化とマルチスケール時間的モデリングを備えた潜在アクションフレームワークである。
さらに,Farsighted-LAM上に構築されたエンドツーエンドVLAフレームワークであるSSM-VLAを提案する。
- 参考スコア(独自算出の注目度): 21.362682837521632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Latent Action Models (LAMs) enable Vision- Language-Action (VLA) systems to learn semantic action rep- resentations from large-scale unannotated data. Yet, we identify two bottlenecks of LAMs: 1) the commonly adopted end-to-end trained image encoder suffers from poor spatial understanding; 2) LAMs can be fragile when input frames are distant, leading to limited temporal perception. Such factors inevitably hinder stable and clear action modeling. To this end, we propose Farsighted-LAM, a latent action framework with geometry- aware spatial encoding and multi-scale temporal modeling, capturing structural priors and dynamic motion patterns from consecutive frames. We further propose SSM-VLA, an end- to-end VLA framework built upon Farsighted-LAM, which integrates structured perception with a visual Chain-of-Thought module to explicitly reason about environmental dynamics, enhancing decision consistency and interpretability. We validate SSM-VLA on multiple VLA tasks in both simulation and real- world settings, and achieve state-of-the-art performance. Our results demonstrate that our strategy of combining geometry- aware modeling, temporal coherence, and explicit reasoning is effective in enhancing the robustness and generalizability of embodied intelligence.
- Abstract(参考訳): Latent Action Models (LAM) は、VLA(Vision-Language-Action)システムにおいて、大規模な無注釈データからセマンティックアクションのリセプションを学習できるようにする。
しかし LAM のボトルネックは2つあります。
1) 一般に採用されているエンドツーエンドのイメージエンコーダは,空間的理解が不十分である。
2) 入力フレームが遠方にある場合, LAMは脆弱であり, 時間知覚に限界がある。
このような要因は必然的に安定かつ明確な行動モデリングを妨げる。
この目的のために,幾何認識型空間符号化とマルチスケール時間モデルを備えた潜在アクションフレームワークであるFarsighted-LAMを提案する。
さらに,Farsighted-LAM上に構築されたエンドツーエンドのVLAフレームワークであるSSM-VLAを提案する。
シミュレーションと実環境設定の両方で複数のVLAタスク上でSSM-VLAを検証し、最先端の性能を実現する。
以上の結果から,図形を考慮したモデリング,時間的コヒーレンス,明示的推論を組み合わせる戦略が,具体的知能の堅牢性と一般化性の向上に有効であることが示唆された。
関連論文リスト
- VLM4D: Towards Spatiotemporal Awareness in Vision Language Models [66.833085504228]
V4DLMは視覚言語モデル(VLM)を評価するために設計された最初のベンチマークである。
本ベンチマークは,質問応答対を慎重にキュレートした,多様な実世界および合成ビデオで構成されている。
我々は,既存のモデルにおける基本的欠陥を浮き彫りにして,人間のベースラインと比較して重要なパフォーマンスギャップを識別する。
論文 参考訳(メタデータ) (2025-08-04T06:06:06Z) - DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge [41.030494146004806]
本稿では,逆動力学モデリングを実現するために,包括的世界知識予測を統合した新しいVLAフレームワークであるDreamVLAを提案する。
DreamVLAは、動的領域誘導の世界知識予測を導入し、空間的および意味的な手がかりと統合し、アクション計画のためのコンパクトで包括的な表現を提供する。
実世界とシミュレーション環境での実験では、ドリームVLAが実際のロボットタスクで76.7%の成功率を達成したことが示されている。
論文 参考訳(メタデータ) (2025-07-06T16:14:29Z) - SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [69.54069477520534]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文 参考訳(メタデータ) (2025-06-15T05:04:17Z) - EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks [24.41705039390567]
EmbodiedVSR (Embodied Visual Space Reasoning) は動的シーングラフ誘導型Chain-of-Thought (CoT)推論を統合する新しいフレームワークである。
本手法はタスク固有の微調整なしでゼロショット空間推論を可能にする。
実験により,我々のフレームワークは,既存のMLLM法よりも精度と推論コヒーレンスにおいて優れていることが示された。
論文 参考訳(メタデータ) (2025-03-14T05:06:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。