論文の概要: History-Conditioned Spatio-Temporal Visual Token Pruning for Efficient Vision-Language Navigation
- arxiv url: http://arxiv.org/abs/2603.06480v1
- Date: Fri, 06 Mar 2026 17:03:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.99707
- Title: History-Conditioned Spatio-Temporal Visual Token Pruning for Efficient Vision-Language Navigation
- Title(参考訳): 効率的な視覚・言語ナビゲーションのための履歴記述型時空間視覚トーンプルーニング
- Authors: Qitong Wang, Yijun Liang, Ming Li, Tianyi Zhou, Christopher Rasmussen,
- Abstract要約: Vision-Language Navigation (LNV)は、ロボットが視覚的に接地された環境で自然言語の指示に従うことを可能にする。
近年のVision-Language-Action-Modelでは,ナビゲーション性能は高いが,リアルタイムデプロイメントを制限している計算遅延は大きい。
VLNベースのVLNに適した学習自由な視覚言語フレームワークを提案する。
- 参考スコア(独自算出の注目度): 18.716145266309802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Navigation (VLN) enables robots to follow natural-language instructions in visually grounded environments, serving as a key capability for embodied robotic systems. Recent Vision-Language-Action (VLA) models have demonstrated strong navigation performance, but their high computational cost introduces latency that limits real-time deployment. We propose a training-free spatio-temporal vision token pruning framework tailored to VLA-based VLN. We apply spatial token selection to the current view, alongside spatio-temporal compression for historical memories, enabling efficient long-horizon inference while reducing redundant computation. Leveraging attention-based token importance and query-guided spatio-temporal filtering, the proposed approach preserves navigation-relevant information without retraining or modifying pretrained models, allowing plug-and-play integration into existing VLA systems. Through experiments on standard VLN benchmarks, we confirm that our method significantly outperforms existing pruning strategies. It successfully preserves superior navigation accuracy under extreme pruning scenarios, all while maintaining the highly competitive inference efficiency. Real-world deployment on a Unitree Go2 quadruped robot further validates reliable and low-latency instruction-following navigation under practical robotic constraints. We hope this work helps bridge the gap between large-scale multimodal modeling and efficient, real-time embodied deployment in robotic navigation systems.
- Abstract(参考訳): Vision-Language Navigation (VLN)は、ロボットが視覚的に接地された環境で自然言語の指示に従うことを可能にする。
近年のVision-Language-Action(VLA)モデルではナビゲーション性能は高いが,計算コストが高いため,リアルタイムデプロイメントに制限がある。
本稿では、VLAベースのVLNに合わせて、トレーニング不要な時空間視覚トークンプルーニングフレームワークを提案する。
過去の記憶の時空間圧縮とともに,空間トークン選択を現在の視点に適用し,冗長な計算を減らしつつ,効率的な長距離推論を可能にした。
注意に基づくトークンの重要性とクエリ誘導時空間フィルタリングを活用することで、事前学習されたモデルの再学習や修正をすることなくナビゲーション関連情報を保存し、既存のVLAシステムへのプラグアンドプレイ統合を可能にする。
標準VLNベンチマーク実験により,本手法が既存のプルーニング手法よりも優れていることを確認した。
非常に競争力のある推論効率を維持しながら、極端なプルーニングシナリオ下で優れたナビゲーション精度を維持する。
Unitree Go2の4足歩行ロボットへの現実的な展開は、実用的なロボットの制約下での信頼性と低レイテンシな命令追従ナビゲーションをさらに検証する。
この研究が、大規模なマルチモーダルモデリングと、ロボットナビゲーションシステムにおける効率的でリアルタイムな実施のギャップを埋める助けになることを願っている。
関連論文リスト
- AgentVLN: Towards Agentic Vision-and-Language Navigation [78.739525400071]
VLN (Vision-and-Language Navigation) は、複雑な自然言語命令を、見えない環境での長距離ナビゲーションに接地するために、エンボディエージェントを必要とする。
本稿では,エッジコンピューティングプラットフォーム上に展開可能な,新規かつ効率的なナビゲーションフレームワークであるAgentVLNを提案する。
論文 参考訳(メタデータ) (2026-03-18T12:43:47Z) - APPLV: Adaptive Planner Parameter Learning from Vision-Language-Action Model [21.492007331670376]
本稿では,自律ナビゲーションのための適応型プランナー学習モデル(textscapplv)を提案する。
textscapplvは、ナビゲーション性能と一般化の両方において、既存のメソッドよりも優れています。
我々は,収集した航法軌道からの教師付き学習微調整と,航法性能をさらに最適化するための強化学習微調整の2つの訓練戦略を開発した。
論文 参考訳(メタデータ) (2026-03-09T19:23:09Z) - VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory [43.2995099083993]
VLAモデルは、認識と計画を統合することで、航法を具現化する有望な可能性を示してきた。
既存のVLAモデルは、観察から行動へのリアクティブマッピングに直接依存している。
VLingNav(VLAモデル)を提案する。
論文 参考訳(メタデータ) (2026-01-13T15:43:43Z) - Aerial Vision-Language Navigation with a Unified Framework for Spatial, Temporal and Embodied Reasoning [5.517595398768408]
本稿では,エゴ単分子RGB観測と自然言語命令のみで動作する航空VLNフレームワークを提案する。
このタスクは、低高度検査、サーチ・アンド・レスキュー、自律型空中輸送といった現実世界のアプリケーションに対して約束される。
論文 参考訳(メタデータ) (2025-12-09T14:25:24Z) - VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。
本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文 参考訳(メタデータ) (2025-06-20T17:59:59Z) - UnitedVLN: Generalizable Gaussian Splatting for Continuous Vision-Language Navigation [71.97405667493477]
我々は,UnitedVLNと呼ばれる,新しい汎用3DGSベースの事前学習パラダイムを導入する。
エージェントは、高忠実度360度ビジュアルイメージとセマンティック特徴を統一してレンダリングすることで、将来の環境をよりよく探索することができる。
UnitedVLNは既存のVLN-CEベンチマークで最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-11-25T02:44:59Z) - Visual-Language Navigation Pretraining via Prompt-based Environmental
Self-exploration [83.96729205383501]
本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。
我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
論文 参考訳(メタデータ) (2022-03-08T11:01:24Z) - Waypoint Models for Instruction-guided Navigation in Continuous
Environments [68.2912740006109]
本稿では,言語条件付きウェイポイント予測ネットワークのクラスを開発し,この問題について検討する。
プロファイリングされたLoCoBotロボット上でのタスク性能と実行時間の推定を行う。
我々のモデルは、VLN-CEにおける以前の仕事を上回り、新しい最先端の技術を公衆のリーダーボードに置きました。
論文 参考訳(メタデータ) (2021-10-05T17:55:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。