論文の概要: Scaling Vision-and-Language Navigation With Offline RL
- arxiv url: http://arxiv.org/abs/2403.18454v1
- Date: Wed, 27 Mar 2024 11:13:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 17:17:54.359777
- Title: Scaling Vision-and-Language Navigation With Offline RL
- Title(参考訳): オフラインRLによる視覚・言語ナビゲーションのスケールアップ
- Authors: Valay Bundele, Mahesh Bhupati, Biplab Banerjee, Aditya Grover,
- Abstract要約: 本稿では,VLN-ORLの新しい問題設定について紹介する。
本稿では,VLNエージェントを訓練するためのデータセットの最適度を考慮に入れた,単純かつ効果的な報酬条件付きアプローチを提案する。
本実験は,提案手法が性能改善につながることを示すものである。
- 参考スコア(独自算出の注目度): 35.624579441774685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The study of vision-and-language navigation (VLN) has typically relied on expert trajectories, which may not always be available in real-world situations due to the significant effort required to collect them. On the other hand, existing approaches to training VLN agents that go beyond available expert data involve data augmentations or online exploration which can be tedious and risky. In contrast, it is easy to access large repositories of suboptimal offline trajectories. Inspired by research in offline reinforcement learning (ORL), we introduce a new problem setup of VLN-ORL which studies VLN using suboptimal demonstration data. We introduce a simple and effective reward-conditioned approach that can account for dataset suboptimality for training VLN agents, as well as benchmarks to evaluate progress and promote research in this area. We empirically study various noise models for characterizing dataset suboptimality among other unique challenges in VLN-ORL and instantiate it for the VLN$\circlearrowright$BERT and MTVM architectures in the R2R and RxR environments. Our experiments demonstrate that the proposed reward-conditioned approach leads to significant performance improvements, even in complex and intricate environments.
- Abstract(参考訳): ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)の研究は通常、専門家の軌跡に頼っている。
一方で、利用可能な専門家データを超えてVLNエージェントをトレーニングするための既存のアプローチには、面倒でリスクの高いデータ拡張やオンライン探索が含まれる。
対照的に、最適でないオフライン軌道の大規模なリポジトリにアクセスするのは容易である。
オフライン強化学習(ORL)の研究に触発されて,VLN-ORLの新たな問題設定を導入する。
本稿では,VLNエージェントを訓練するためのデータセットの最適度を考慮に入れた,簡便で効果的な報酬条件付きアプローチを提案する。
我々は、VLN-ORLにおける他のユニークな課題の中で、データセットの最適性を特徴づける様々なノイズモデルを経験的に研究し、R2RおよびRxR環境におけるVLN$\circlearrowright$BERTおよびMTVMアーキテクチャをインスタンス化する。
実験の結果,提案手法は複雑で複雑な環境においても,大幅な性能向上をもたらすことが示された。
関連論文リスト
- D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - Preference Elicitation for Offline Reinforcement Learning [59.136381500967744]
オフラインの嗜好に基づく強化学習アルゴリズムであるSim-OPRLを提案する。
本アルゴリズムは,配当外データに対する悲観的アプローチと,最適方針に関する情報的嗜好を得るための楽観的アプローチを用いる。
論文 参考訳(メタデータ) (2024-06-26T15:59:13Z) - Continual Vision-and-Language Navigation [18.20829279972436]
VLN(Vision-and-Language Navigation)エージェントは、自然言語命令と観察する視覚情報を使用して目的地にナビゲートする。
既存のVLNエージェントのトレーニング方法は、固定データセットを前提としており、大きな制限をもたらす。
本稿では,連続的な学習プロセスを通じて訓練されたエージェントを評価するために,CVLN(Continuous Vision-and-Language Navigation)パラダイムを提案する。
論文 参考訳(メタデータ) (2024-03-22T09:15:36Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning
Disentangled Reasoning [101.56342075720588]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - Causality-based Cross-Modal Representation Learning for
Vision-and-Language Navigation [15.058687283978077]
VLN(Vision-and-Language Navigation)は、現実のシナリオに応用される可能性から、近年、大きな研究の関心を集めている。
既存のVLN法は、急激な関連の問題に苦慮し、その結果、目に見える環境と目に見えない環境の間に大きな性能差があるような一般化が不十分になる。
本稿では,因果学習パラダイムに基づく統一的なフレームワークCausalVLNを提案する。
論文 参考訳(メタデータ) (2024-03-06T02:01:38Z) - Leveraging Optimal Transport for Enhanced Offline Reinforcement Learning
in Surgical Robotic Environments [4.2569494803130565]
我々は,少数の高品質な専門家によるデモンストレーションを用いて,オフラインの軌道に報酬を割り当てるための革新的なアルゴリズムを導入する。
このアプローチは、手作りの報酬の必要性を回避し、ポリシー学習に膨大なデータセットを活用する可能性を解き放つ。
論文 参考訳(メタデータ) (2023-10-13T03:39:15Z) - Airbert: In-domain Pretraining for Vision-and-Language Navigation [91.03849833486974]
ビジョン・アンド・ランゲージナビゲーション(VLN)は、エンボディエージェントが自然言語命令を使って現実的な環境をナビゲートできるようにすることを目的としている。
近年の方法は、VLN剤の一般化を改善するための事前学習である。
大規模かつ多様なドメイン内VLNデータセットであるBnBを紹介する。
論文 参考訳(メタデータ) (2021-08-20T10:58:09Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。