論文の概要: VLD: Visual Language Goal Distance for Reinforcement Learning Navigation
- arxiv url: http://arxiv.org/abs/2512.07976v1
- Date: Mon, 08 Dec 2025 19:05:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.698311
- Title: VLD: Visual Language Goal Distance for Reinforcement Learning Navigation
- Title(参考訳): VLD: 強化学習ナビゲーションのためのビジュアル言語目標距離
- Authors: Lazar Milikic, Manthan Patel, Jonas Frey,
- Abstract要約: 本稿では,目標条件付きナビゲーションのフレームワークであるビジョン・ランゲージ・ディスタンス(VLD)学習を紹介する。
まず、インターネット規模のビデオデータに基づいて、自己教師付き距離目標予測器を訓練する。
この予測器は画像とテキストの両方の目標を一般化し、強化学習ポリシーによって最小化できる距離信号を提供する。
- 参考スコア(独自算出の注目度): 5.225089020389076
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training end-to-end policies from image data to directly predict navigation actions for robotic systems has proven inherently difficult. Existing approaches often suffer from either the sim-to-real gap during policy transfer or a limited amount of training data with action labels. To address this problem, we introduce Vision-Language Distance (VLD) learning, a scalable framework for goal-conditioned navigation that decouples perception learning from policy learning. Instead of relying on raw sensory inputs during policy training, we first train a self-supervised distance-to-goal predictor on internet-scale video data. This predictor generalizes across both image- and text-based goals, providing a distance signal that can be minimized by a reinforcement learning (RL) policy. The RL policy can be trained entirely in simulation using privileged geometric distance signals, with injected noise to mimic the uncertainty of the trained distance predictor. At deployment, the policy consumes VLD predictions, inheriting semantic goal information-"where to go"-from large-scale visual training while retaining the robust low-level navigation behaviors learned in simulation. We propose using ordinal consistency to assess distance functions directly and demonstrate that VLD outperforms prior temporal distance approaches, such as ViNT and VIP. Experiments show that our decoupled design achieves competitive navigation performance in simulation while supporting flexible goal modalities, providing an alternative and, most importantly, scalable path toward reliable, multimodal navigation policies.
- Abstract(参考訳): 画像データからエンドツーエンドのポリシーをトレーニングして、ロボットシステムのナビゲーションアクションを直接予測することは、本質的に困難であることが証明されている。
既存のアプローチは、ポリシー転送中のsim-to-realギャップや、アクションラベルによる限られたトレーニングデータに悩まされることが多い。
この問題に対処するために、政策学習から知覚学習を分離する目標条件ナビゲーションのためのスケーラブルなフレームワークであるビジョン・ランゲージ・ディスタンス(VLD)学習を導入する。
政策訓練中に生の感覚入力に頼る代わりに、まずインターネット規模のビデオデータに基づいて自己教師付き距離目標予測器を訓練する。
この予測器は画像とテキストの両方の目標を一般化し、強化学習(RL)ポリシーによって最小化できる距離信号を提供する。
RLポリシは、トレーニングされた距離予測器の不確かさを模倣するノイズを注入した、特権付き幾何学的距離信号を用いて、完全にシミュレーションで訓練することができる。
デプロイメントにおいて、ポリシーはVLD予測を消費し、シミュレーションで学んだ堅牢な低レベルのナビゲーション動作を維持しながら、大規模なビジュアルトレーニングから"どこへ行くべきか"という意味的な目標情報を継承する。
本稿では,VLD が ViNT や VIP などの時間的距離アプローチよりも優れていることを示すために,順序整合性を用いて距離関数を直接評価する手法を提案する。
実験の結果、分離された設計は、フレキシブルな目標モダリティをサポートしながら、シミュレーションにおいて競争力のあるナビゲーション性能を実現し、信頼性とマルチモーダルなナビゲーションポリシーへの代替的かつ、最も重要な、スケーラブルなパスを提供することがわかった。
関連論文リスト
- DAgger Diffusion Navigation: DAgger Boosted Diffusion Policy for Vision-Language Navigation [73.80968452950854]
Vision-Language Navigation in Continuous Environments (VLN-CE) は、エージェントが自由形式の3D空間を通して自然言語の指示に従う必要がある。
既存のVLN-CEアプローチは通常、2段階のウェイポイント計画フレームワークを使用する。
本稿では,エンドツーエンド最適化VLN-CEポリシとしてDAgger Diffusion Navigation (DifNav)を提案する。
論文 参考訳(メタデータ) (2025-08-13T02:51:43Z) - VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。
本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文 参考訳(メタデータ) (2025-06-20T17:59:59Z) - RSRNav: Reasoning Spatial Relationship for Image-Goal Navigation [57.197881161006904]
近年のイメージゴールナビゲーション(ImageNav)手法は,目標と自我中心の画像の意味的特徴を別々に捉え,知覚行動ポリシーを学習している。
本稿では,目標と現在の観測値の空間的関係をナビゲーションガイダンスとして考慮する,シンプルで効果的な手法であるRSRNavを提案する。
論文 参考訳(メタデータ) (2025-04-25T00:22:17Z) - RAPID: Robust and Agile Planner Using Inverse Reinforcement Learning for Vision-Based Drone Navigation [9.25068777307471]
本稿では,乱雑な環境下でのアジャイルドローン飛行のための学習型ビジュアルプランナを紹介する。
提案したプランナーは、ミリ秒で衝突のないウェイポイントを生成し、ドローンは、異なる知覚、マッピング、計画モジュールを構築することなく、複雑な環境でアジャイルな操作を実行できる。
論文 参考訳(メタデータ) (2025-02-04T06:42:08Z) - MPVO: Motion-Prior based Visual Odometry for PointGoal Navigation [3.9974562667271507]
視覚計測(VO)は,室内環境におけるエンボディエージェントの正確なポイントゴールナビゲーションを可能にするために不可欠である。
近年の深層学習VO法は, 頑健な性能を示すが, トレーニング中のサンプル不効率に悩まされている。
エージェントが環境をナビゲートしている間に利用可能な動作先に基づいて、ロバストでサンプル効率の良いVOパイプラインを提案する。
論文 参考訳(メタデータ) (2024-11-07T15:36:49Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Learning for Visual Navigation by Imagining the Success [66.99810227193196]
我々は,成功(下位)ゴーナル状態の潜在表現を想像することを提案する。
ForeSITは、成功につながる将来の状態の繰り返しの潜在表現を想像するように訓練されています。
ForeSITをオンポリシーでトレーニングし、RL目標に統合するための効率的な学習アルゴリズムを開発しています。
論文 参考訳(メタデータ) (2021-02-28T10:25:46Z) - An A* Curriculum Approach to Reinforcement Learning for RGBD Indoor
Robot Navigation [6.660458629649825]
最近リリースされたhabitatのようなフォトリアリスティックシミュレータは、知覚から直接制御アクションを出力するネットワークのトレーニングを可能にする。
本稿では,知覚の訓練とニューラルネットの制御を分離し,経路の複雑さを徐々に増すことにより,この問題を克服しようとする。
論文 参考訳(メタデータ) (2021-01-05T20:35:14Z) - Counterfactual Vision-and-Language Navigation via Adversarial Path Sampling [65.99956848461915]
VLN(Vision-and-Language Navigation)は、エージェントが目標を達成するために3D環境を移動する方法を決定するタスクである。
VLNタスクの問題点の1つは、対話型環境において、人間に注釈を付けた指示で十分なナビゲーションパスを収集することは困難であるため、データの不足である。
本稿では,低品質な拡張データではなく,効果的な条件を考慮可能な,対向駆動の反実的推論モデルを提案する。
論文 参考訳(メタデータ) (2019-11-17T18:02:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。