論文の概要: View Invariant Learning for Vision-Language Navigation in Continuous Environments
- arxiv url: http://arxiv.org/abs/2507.08831v1
- Date: Sat, 05 Jul 2025 18:04:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:21.457842
- Title: View Invariant Learning for Vision-Language Navigation in Continuous Environments
- Title(参考訳): 連続環境における視覚言語ナビゲーションのためのビュー不変学習
- Authors: Josh Qixuan Sun, Xiaoying Xing, Huaiyuan Weng, Chul Min Yeum, Mark Crowley,
- Abstract要約: VLNCE(Vision-Language Navigation in Continuous Environments)は、AIの具体化における重要な研究課題である。
ほとんどのナビゲーションポリシーは、視点の変化、すなわち、エージェントの観察を変えるカメラの高さと視角の変化に敏感である。
カメラ視点の変化に対する既存のナビゲーションポリシーの堅牢性を高めるために,ビュー不変なポストトレーニング戦略であるVIL(View Invariant Learning)を提案する。
- 参考スコア(独自算出の注目度): 1.2530458935333404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Navigation in Continuous Environments (VLNCE), where an agent follows instructions and moves freely to reach a destination, is a key research problem in embodied AI. However, most navigation policies are sensitive to viewpoint changes, i.e., variations in camera height and viewing angle that alter the agent's observation. In this paper, we introduce a generalized scenario, V2-VLNCE (VLNCE with Varied Viewpoints), and propose VIL (View Invariant Learning), a view-invariant post-training strategy that enhances the robustness of existing navigation policies to changes in camera viewpoint. VIL employs a contrastive learning framework to learn sparse and view-invariant features. Additionally, we introduce a teacher-student framework for the Waypoint Predictor Module, a core component of most VLNCE baselines, where a view-dependent teacher model distills knowledge into a view-invariant student model. We employ an end-to-end training paradigm to jointly optimize these components, thus eliminating the cost for individual module training. Empirical results show that our method outperforms state-of-the-art approaches on V2-VLNCE by 8-15% measured on Success Rate for two standard benchmark datasets R2R-CE and RxR-CE. Furthermore, we evaluate VIL under the standard VLNCE setting and find that, despite being trained for varied viewpoints, it often still improves performance. On the more challenging RxR-CE dataset, our method also achieved state-of-the-art performance across all metrics when compared to other map-free methods. This suggests that adding VIL does not diminish the standard viewpoint performance and can serve as a plug-and-play post-training method.
- Abstract(参考訳): VLNCE(Vision-Language Navigation in Continuous Environments, VLNCE)は、エージェントが指示に従い、目的地に到達するために自由に動くという、AIの具体化における重要な研究課題である。
しかし、ほとんどのナビゲーションポリシーは視点の変化、すなわち、エージェントの観察を変えるカメラの高さと視角の変化に敏感である。
本稿では,V2-VLNCE(Varied Viewpoints付きVLNCE)という一般化シナリオを導入し,カメラ視点の変化に対する既存のナビゲーションポリシーの堅牢性を高めるビュー不変のポストトレーニング戦略であるVIL(View Invariant Learning)を提案する。
VILは、スパースとビュー不変の機能を学ぶために、対照的な学習フレームワークを使用している。
さらに,多くのVLNCEベースラインのコアコンポーネントであるWaypoint Predictor Moduleの教師学生向けフレームワークを導入し,ビュー依存型教師モデルは知識をビュー不変の学生モデルに抽出する。
これらのコンポーネントを協調的に最適化するために、エンドツーエンドのトレーニングパラダイムを使用します。
その結果,2つの標準ベンチマークデータセットR2R-CEとRxR-CEにおいて,V2-VLNCEの精度を8~15%向上させることができた。
さらに、標準VLNCE設定下でのVILの評価を行い、様々な視点で訓練されているにもかかわらず、性能が向上することが多いことを発見した。
より困難なRxR-CEデータセットでは,他のマップフリー手法と比較して,各指標の最先端性能が向上した。
これは、VILの追加が標準的な視点性能を低下させることなく、プラグイン・アンド・プレイ・ポストトレーニングの手法として機能することを示唆している。
関連論文リスト
- Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。
本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文 参考訳(メタデータ) (2025-08-06T09:03:10Z) - XVO: Generalized Visual Odometry via Cross-Modal Self-Training [11.70220331540621]
XVOは、一般化された単眼視眼視(英語版)モデル(英語版)(VO)を訓練するための半教師付き学習法である。
単一のデータセット内の既知のキャリブレーションをよく研究する標準的な単分子VOアプローチとは対照的に、XVOは現実のスケールで相対的なポーズを回復するのを効率的に学習する。
そこで我々は,YouTubeで公開されている大量の非拘束・異質なダッシュカメラビデオから,自己学習による動作推定モデルを最適化した。
論文 参考訳(メタデータ) (2023-09-28T18:09:40Z) - Divert More Attention to Vision-Language Object Tracking [87.31882921111048]
大規模な視覚言語アノテートビデオと非効果的な視覚言語対話学習が欠如していることは、トラッキングのためのより効果的な視覚言語表現の設計を動機づけている、と我々は主張する。
本稿では,まず,6つの人気追跡ベンチマークで動画をデコレートする属性アノテーション戦略を提案する。
次に,非対称なアーキテクチャ探索とモダリティミキサー(ModaMixer)を提案する,統一適応型VL表現の学習によるトラッキング向上のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-19T15:22:06Z) - VIBR: Learning View-Invariant Value Functions for Robust Visual Control [3.2307366446033945]
VIBR (View-Invariant Bellman Residuals) は、マルチビュートレーニングと不変予測を組み合わせて、RLベースのビジュモータ制御における分配ギャップを削減する手法である。
視覚摂動の高い複雑なビジュオモータ制御環境において,VIBRは既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-14T14:37:34Z) - Rethinking Range View Representation for LiDAR Segmentation [66.73116059734788]
「多対一」マッピング、意味的不整合、形状変形は、射程射影からの効果的な学習に対する障害となる可能性がある。
RangeFormerは、ネットワークアーキテクチャ、データ拡張、後処理を含む新しい設計を含む、フルサイクルのフレームワークである。
比較対象のLiDARセマンティックスとパノプティックスセグメンテーションのベンチマークにおいて,初めてレンジビュー法が点,ボクセル,マルチビューフュージョンを越えられることを示す。
論文 参考訳(メタデータ) (2023-03-09T16:13:27Z) - Anticipating the Unseen Discrepancy for Vision and Language Navigation [63.399180481818405]
視覚言語ナビゲーションでは、エージェントは特定のターゲットに到達するために自然言語命令に従う必要がある。
目に見える環境と目に見えない環境の間に大きな違いがあるため、エージェントがうまく一般化することは困難である。
本研究では,テストタイムの視覚的整合性を促進することによって,未知の環境への一般化を学習する,未知の離散性予測ビジョンと言語ナビゲーション(DAVIS)を提案する。
論文 参考訳(メタデータ) (2022-09-10T19:04:40Z) - Contrastive Instruction-Trajectory Learning for Vision-Language
Navigation [66.16980504844233]
視覚言語ナビゲーション(VLN)タスクでは、エージェントが自然言語の指示でターゲットに到達する必要がある。
先行研究は、命令-軌道対間の類似点と相違点を識別できず、サブ命令の時間的連続性を無視する。
本稿では、類似したデータサンプル間の分散と、異なるデータサンプル間の分散を探索し、ロバストなナビゲーションのための独特な表現を学習するContrastive Instruction-Trajectory Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-08T06:32:52Z) - Visual Perception Generalization for Vision-and-Language Navigation via
Meta-Learning [9.519596058757033]
VLN(Vision-and-Language Navigation)は、自然言語の指示やリアルタイムで受信した視覚情報を理解することによって、エージェントが現実世界の環境をナビゲートする必要がある課題である。
本研究では、メタラーニングに基づく視覚認識一般化戦略を提案する。これにより、エージェントは数回のショットで新しいカメラ構成に迅速に適応することができる。
論文 参考訳(メタデータ) (2020-12-10T04:10:04Z) - Soft Expert Reward Learning for Vision-and-Language Navigation [94.86954695912125]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従うことで、目に見えない環境で特定の場所を見つける必要がある。
本稿では,VLNタスクの工学的設計と一般化問題を克服するために,ソフトエキスパート・リワード・ラーニング(SERL)モデルを導入する。
論文 参考訳(メタデータ) (2020-07-21T14:17:36Z) - Learning View and Target Invariant Visual Servoing for Navigation [9.873635079670093]
ローカルな移動ロボットナビゲーションのための視点不変と目標不変の視覚サーボを学習する。
我々は、目的を達成するために深層畳み込みネットワークコントローラを訓練する。
論文 参考訳(メタデータ) (2020-03-04T20:36:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。