論文の概要: Continual Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2403.15049v1
- Date: Fri, 22 Mar 2024 09:15:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 18:08:17.682221
- Title: Continual Vision-and-Language Navigation
- Title(参考訳): 連続的な視覚・言語ナビゲーション
- Authors: Seongjun Jeong, Gi-Cheon Kang, Seongho Choi, Joochan Kim, Byoung-Tak Zhang,
- Abstract要約: VLN(Vision-and-Language Navigation)エージェントは、自然言語命令と観察する視覚情報を使用して目的地にナビゲートする。
既存のVLNエージェントのトレーニング方法は、固定データセットを前提としており、大きな制限をもたらす。
本稿では,連続的な学習プロセスを通じて訓練されたエージェントを評価するために,CVLN(Continuous Vision-and-Language Navigation)パラダイムを提案する。
- 参考スコア(独自算出の注目度): 18.20829279972436
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision-and-Language Navigation (VLN) agents navigate to a destination using natural language instructions and the visual information they observe. Existing methods for training VLN agents presuppose fixed datasets, leading to a significant limitation: the introduction of new environments necessitates retraining with previously encountered environments to preserve their knowledge. This makes it difficult to train VLN agents that operate in the ever-changing real world. To address this limitation, we present the Continual Vision-and-Language Navigation (CVLN) paradigm, designed to evaluate agents trained through a continual learning process. For the training and evaluation of CVLN agents, we re-arrange existing VLN datasets to propose two datasets: CVLN-I, focused on navigation via initial-instruction interpretation, and CVLN-D, aimed at navigation through dialogue with other agents. Furthermore, we propose two novel rehearsal-based methods for CVLN, Perplexity Replay (PerpR) and Episodic Self-Replay (ESR). PerpR prioritizes replaying challenging episodes based on action perplexity, while ESR replays previously predicted action logits to preserve learned behaviors. We demonstrate the effectiveness of the proposed methods on CVLN through extensive experiments.
- Abstract(参考訳): VLN(Vision-and-Language Navigation)エージェントは、自然言語命令と観察する視覚情報を使用して目的地にナビゲートする。
既存のVLNエージェントのトレーニング方法は、固定データセットを前提としており、新しい環境の導入は、彼らの知識を維持するために、以前遭遇した環境の再トレーニングを必要とします。
これにより、常に変化する現実世界で作動するVLNエージェントの訓練が困難になる。
この制限に対処するために,連続的な学習プロセスを通じて訓練されたエージェントを評価するために設計されたCVLN(Continuousal Vision-and-Language Navigation)パラダイムを提案する。
CVLNエージェントのトレーニングと評価のために、既存のVLNデータセットを再配置し、初期命令解釈によるナビゲーションに焦点を当てたCVLN-Iと、他のエージェントとの対話によるナビゲーションを目的としたCVLN-Dという2つのデータセットを提案する。
さらに,CVLN, Perplexity Replay (PerpR), Episodic Self-Replay (ESR) の2つの新しいリハーサル方式を提案する。
PerpRはアクションの難易度に基づいて困難なエピソードの再生を優先し、ESRは以前に予測されたアクションログを再生して学習行動を保存する。
CVLNにおける提案手法の有効性を実験的に検証した。
関連論文リスト
- Scaling Vision-and-Language Navigation With Offline RL [35.624579441774685]
本稿では,VLN-ORLの新しい問題設定について紹介する。
本稿では,VLNエージェントを訓練するためのデータセットの最適度を考慮に入れた,単純かつ効果的な報酬条件付きアプローチを提案する。
本実験は,提案手法が性能改善につながることを示すものである。
論文 参考訳(メタデータ) (2024-03-27T11:13:20Z) - TINA: Think, Interaction, and Action Framework for Zero-Shot Vision Language Navigation [11.591176410027224]
本稿では,Large Language Models(LLM)に基づく視覚言語ナビゲーション(VLN)エージェントを提案する。
環境認識におけるLLMの欠点を補うための思考・相互作用・行動の枠組みを提案する。
また,本手法は教師付き学習手法よりも優れ,ゼロショットナビゲーションの有効性を強調した。
論文 参考訳(メタデータ) (2024-03-13T05:22:39Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning
Disentangled Reasoning [101.56342075720588]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - Vision-Language Models Provide Promptable Representations for
Reinforcement Learning [73.63538447814504]
人間は、バックグラウンドワールドの知識を活用することで、素早く新しい行動を学ぶことができる。
視覚言語モデルに符号化された多量の一般および索引可能な世界知識を利用する新しい手法を提案する。
本研究では,ハビタットのマインクラフトとロボットナビゲーションにおいて,視覚的に複雑で長い水平方向のRLタスクに対するアプローチを評価する。
論文 参考訳(メタデータ) (2024-02-05T00:48:56Z) - ULN: Towards Underspecified Vision-and-Language Navigation [77.81257404252132]
Underspecificified Vision-and-Language Navigation (ULN)は、視覚・言語ナビゲーション(VLN)のための新しい設定である
本稿では,分類モジュール,ナビゲーションエージェント,エクスプロイテーション・ツー・エクスプロレーション(E2E)モジュールで構成されるVLNフレームワークを提案する。
我々のフレームワークはより堅牢で、ULNのベースラインを全レベルの相対的な成功率で10%上回る。
論文 参考訳(メタデータ) (2022-10-18T17:45:06Z) - HOP: History-and-Order Aware Pre-training for Vision-and-Language
Navigation [33.38079488853708]
以前のVision-and-Language Navigation (VLN)の事前トレーニング手法には、将来のアクションを予測する能力やコンテキストを無視する能力がない。
本稿では,過去の観測を生かし,今後の行動予測を支援する新しい事前学習パラダイムを提案する。
我々のナビゲーション行動予測は、歴史を伴う行動予測のタスクによって強化される。
論文 参考訳(メタデータ) (2022-03-22T10:17:12Z) - Contrastive Instruction-Trajectory Learning for Vision-Language
Navigation [66.16980504844233]
視覚言語ナビゲーション(VLN)タスクでは、エージェントが自然言語の指示でターゲットに到達する必要がある。
先行研究は、命令-軌道対間の類似点と相違点を識別できず、サブ命令の時間的連続性を無視する。
本稿では、類似したデータサンプル間の分散と、異なるデータサンプル間の分散を探索し、ロバストなナビゲーションのための独特な表現を学習するContrastive Instruction-Trajectory Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-08T06:32:52Z) - Curriculum Learning for Vision-and-Language Navigation [16.695511663714214]
VLN(Vision-and-Language Navigation)は、エージェントが人間の指示で室内環境をナビゲートするタスクである。
従来の研究はサンプルの難易度分布を無視しており、エージェントの性能を低下させる可能性があると論じている。
本稿では,人間の事前知識とエージェント学習の進捗をバランスさせる,VLNタスクのためのカリキュラムベースの新しいトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2021-11-14T03:02:07Z) - Airbert: In-domain Pretraining for Vision-and-Language Navigation [91.03849833486974]
ビジョン・アンド・ランゲージナビゲーション(VLN)は、エンボディエージェントが自然言語命令を使って現実的な環境をナビゲートできるようにすることを目的としている。
近年の方法は、VLN剤の一般化を改善するための事前学習である。
大規模かつ多様なドメイン内VLNデータセットであるBnBを紹介する。
論文 参考訳(メタデータ) (2021-08-20T10:58:09Z) - Towards Learning a Generic Agent for Vision-and-Language Navigation via
Pre-training [150.35927365127176]
視覚・言語ナビゲーション(VLN)タスクのための,最初の事前学習および微調整パラダイムを提案する。
自己教師付き学習方式で大量の画像-テキスト-アクション三つ子を訓練することにより、事前学習されたモデルは、視覚環境と言語命令の一般的な表現を提供する。
新たなタスクにおいてより効果的に学習し、以前は目に見えない環境でより良く一般化する。
論文 参考訳(メタデータ) (2020-02-25T03:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。