論文の概要: \textsc{NaVIDA}: Vision-Language Navigation with Inverse Dynamics Augmentation
- arxiv url: http://arxiv.org/abs/2601.18188v1
- Date: Mon, 26 Jan 2026 06:16:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.698189
- Title: \textsc{NaVIDA}: Vision-Language Navigation with Inverse Dynamics Augmentation
- Title(参考訳): \textsc{NaVIDA}:逆ダイナミクス拡張を用いた視覚言語ナビゲーション
- Authors: Weiye Zhu, Zekai Zhang, Xiangchen Wang, Hewei Pan, Teng Wang, Tiantian Geng, Rongtao Xu, Feng Zheng,
- Abstract要約: textscNaVIDAは、ポリシー学習とアクショングラウンドの視覚力学と適応実行を結合した統合VLNフレームワークである。
textscNaVIDAは、チャンクベースの逆ダイナミクスによるトレーニングを強化し、視覚変化と対応するアクションの因果関係を学習する。
実験の結果,textscNaVIDAはパラメータが少ない最先端の手法に比べてナビゲーション性能が優れていることがわかった。
- 参考スコア(独自算出の注目度): 50.027425808733994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-and-Language Navigation (VLN) requires agents to interpret natural language instructions and act coherently in visually rich environments. However, most existing methods rely on reactive state-action mappings without explicitly modeling how actions causally transform subsequent visual observations. Lacking such vision-action causality, agents cannot anticipate the visual changes induced by its own actions, leading to unstable behaviors, weak generalization, and cumulative error along trajectory. To address these issues, we introduce \textsc{NaVIDA} (\textbf{Nav}igation with \textbf{I}nverse \textbf{D}ynamics \textbf{A}ugmentation), a unified VLN framework that couples policy learning with action-grounded visual dynamics and adaptive execution. \textsc{NaVIDA} augments training with chunk-based inverse-dynamics supervision to learn causal relationship between visual changes and corresponding actions. To structure this supervision and extend the effective planning range, \textsc{NaVIDA} employs hierarchical probabilistic action chunking (HPAC), which organizes trajectories into multi-step chunks and provides discriminative, longer-range visual-change cues. To further curb error accumulation and stabilize behavior at inference, an entropy-guided mechanism adaptively sets the execution horizon of action chunks. Extensive experiments show that \textsc{NaVIDA} achieves superior navigation performance compared to state-of-the-art methods with fewer parameters (3B vs. 8B). Real-world robot evaluations further validate the practical feasibility and effectiveness of our approach. Code and data will be available upon acceptance.
- Abstract(参考訳): VLN(Vision-and-Language Navigation)は、自然言語の命令を解釈し、視覚的にリッチな環境でコヒーレントに行動するエージェントを必要とする。
しかしながら、既存のほとんどの手法は、アクションがその後の視覚的観察をどのように因果的に変換するかを明示的にモデル化することなく、リアクティブな状態-アクションマッピングに依存している。
このような視覚行動因果関係を欠くエージェントは、自身の行動によって引き起こされる視覚的変化を予測できず、不安定な振る舞い、一般化の弱さ、軌道に沿った累積誤差をもたらす。
これらの問題に対処するために、政策学習とアクショングラウンドの視覚力学と適応実行を結合した統合VLNフレームワークである \textbf{NaVIDA} (\textbf{Nav}igation with \textbf{I}nverse \textbf{D}ynamics \textbf{A}ugmentation) を導入する。
\textsc{NaVIDA} は、チャンクベースの逆ダイナミクスによるトレーニングを強化し、視覚変化と対応するアクションの因果関係を学習する。
この監視を構造化し、効果的な計画範囲を拡張するために、 \textsc{NaVIDA} は階層的確率的行動チャンキング (HPAC) を用いて、軌道を多段階のチャンクに整理し、識別的、より長距離の視覚変化の手がかりを提供する。
エントロピー誘導機構が動作チャンクの実行地平線を適応的に設定する。
拡張実験により, パラメータの少ない最先端手法に比べて, <textsc{NaVIDA} はナビゲーション性能に優れることがわかった(3B vs. 8B)。
実世界のロボット評価は、我々のアプローチの実用性と有効性をさらに検証する。
コードとデータは受理後利用可能になる。
関連論文リスト
- Stable Language Guidance for Vision-Language-Action Models [62.80963701282789]
残留セマンティックステアリング(Residual Semantic Steering)は、セマンティック実行から身体的余裕を逸脱する確率的フレームワークである。
RSSは最先端の堅牢性を実現し、敵対的な言語摂動の下でも性能を維持する。
論文 参考訳(メタデータ) (2026-01-07T16:16:10Z) - Learning to Act Robustly with View-Invariant Latent Actions [8.446887947386559]
視覚に基づくロボットポリシーは、視界不変の視覚表現の必要性を強調し、小さな視点の変化に苦しむことが多い。
本研究では,ビュー不変遅延行動 (VILA) を提案する。これは,物理力学に基づくビュー不変表現を学習するために,トラジェクトリ間で遷移パターンをキャプチャする潜在動作をモデル化する。
シミュレーションと実世界の双方の実験から、VILAベースのポリシーは見当たらない視点に効果的に一般化し、新しいタスクにうまく移行することが示された。
論文 参考訳(メタデータ) (2026-01-06T13:14:01Z) - PosA-VLA: Enhancing Action Generation via Pose-Conditioned Anchor Attention [92.85371254435074]
PosA-VLAフレームワークは、ポーズ条件付き監視を通じて視覚的注意を保ち、タスク関連領域に対するモデルの認識を一貫して導く。
本手法は,多様なロボット操作ベンチマークにおいて,正確かつ時間効率のよい動作を実施できることを示す。
論文 参考訳(メタデータ) (2025-12-03T12:14:29Z) - Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [73.75271615101754]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - Fine-Grained Alignment in Vision-and-Language Navigation through Bayesian Optimization [20.608059199982094]
本稿では,視覚・言語ナビゲーション(VLN)タスクにおける細粒度アライメントの課題に対処する。
現在のアプローチでは、対照的な学習を用いて、言語を視覚的軌跡シーケンスと整合させる。
本稿では, ベイズ最適化に基づく逆最適化フレームワークを導入し, 微細なコントラスト視覚サンプルを作成する。
論文 参考訳(メタデータ) (2024-11-22T09:12:02Z) - Narrowing the Gap between Vision and Action in Navigation [28.753809306008996]
本稿では,高レベル動作予測を併用した低レベル動作デコーダを提案する。
我々のエージェントは、ハイレベルアクションとローレベルアクションの両方の強力なベースラインと比較して、ナビゲーション性能の指標を改善することができる。
論文 参考訳(メタデータ) (2024-08-19T20:09:56Z) - Counterfactual Vision-and-Language Navigation via Adversarial Path Sampling [65.99956848461915]
VLN(Vision-and-Language Navigation)は、エージェントが目標を達成するために3D環境を移動する方法を決定するタスクである。
VLNタスクの問題点の1つは、対話型環境において、人間に注釈を付けた指示で十分なナビゲーションパスを収集することは困難であるため、データの不足である。
本稿では,低品質な拡張データではなく,効果的な条件を考慮可能な,対向駆動の反実的推論モデルを提案する。
論文 参考訳(メタデータ) (2019-11-17T18:02:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。