論文の概要: Curriculum Learning for Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2111.07228v1
- Date: Sun, 14 Nov 2021 03:02:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-16 13:23:38.465740
- Title: Curriculum Learning for Vision-and-Language Navigation
- Title(参考訳): 視覚・言語ナビゲーションのためのカリキュラム学習
- Authors: Jiwen Zhang, Zhongyu Wei, Jianqing Fan, Jiajie Peng
- Abstract要約: VLN(Vision-and-Language Navigation)は、エージェントが人間の指示で室内環境をナビゲートするタスクである。
従来の研究はサンプルの難易度分布を無視しており、エージェントの性能を低下させる可能性があると論じている。
本稿では,人間の事前知識とエージェント学習の進捗をバランスさせる,VLNタスクのためのカリキュラムベースの新しいトレーニングパラダイムを提案する。
- 参考スコア(独自算出の注目度): 16.695511663714214
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-Language Navigation (VLN) is a task where an agent navigates in an
embodied indoor environment under human instructions. Previous works ignore the
distribution of sample difficulty and we argue that this potentially degrade
their agent performance. To tackle this issue, we propose a novel
curriculum-based training paradigm for VLN tasks that can balance human prior
knowledge and agent learning progress about training samples. We develop the
principle of curriculum design and re-arrange the benchmark Room-to-Room (R2R)
dataset to make it suitable for curriculum training. Experiments show that our
method is model-agnostic and can significantly improve the performance, the
generalizability, and the training efficiency of current state-of-the-art
navigation agents without increasing model complexity.
- Abstract(参考訳): VLN(Vision-and-Language Navigation)は、エージェントが人間の指示で室内環境をナビゲートするタスクである。
従来の研究はサンプルの難易度分布を無視しており、エージェントの性能を低下させる可能性がある。
そこで本研究では,VLNタスクのためのカリキュラムベースの新しいトレーニングパラダイムを提案する。
カリキュラム設計の原理を開発し,カリキュラムトレーニングに適したベンチマークRoom-to-Room(R2R)データセットを再配置する。
実験により,本手法はモデル非依存であり,モデルの複雑さを増すことなく,現在のナビゲーションエージェントの性能,汎用性,トレーニング効率を大幅に向上できることを示した。
関連論文リスト
- TINA: Think, Interaction, and Action Framework for Zero-Shot Vision Language Navigation [11.591176410027224]
本稿では,Large Language Models(LLM)に基づく視覚言語ナビゲーション(VLN)エージェントを提案する。
環境認識におけるLLMの欠点を補うための思考・相互作用・行動の枠組みを提案する。
また,本手法は教師付き学習手法よりも優れ,ゼロショットナビゲーションの有効性を強調した。
論文 参考訳(メタデータ) (2024-03-13T05:22:39Z) - Towards Learning a Generalist Model for Embodied Navigation [24.816490551945435]
そこで本研究では,NaviLLM を具体化するための最初のジェネラリストモデルを提案する。
スキーマベースの命令を導入することで、LCMをナビゲーションの具体化に適応する。
我々は,モデルの性能と一般化性を評価するため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-12-04T16:32:51Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Masked Path Modeling for Vision-and-Language Navigation [41.7517631477082]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)エージェントは、自然言語の指示に従うことで現実世界の環境をナビゲートするように訓練されている。
以前のアプローチでは、トレーニング中に追加の監督を導入することでこの問題に対処しようと試みていた。
本稿では,下流ナビゲーションタスクに自己コンパイルデータを用いてエージェントを事前訓練する,マスク付きパスモデリング(MPM)手法を提案する。
論文 参考訳(メタデータ) (2023-05-23T17:20:20Z) - Visual-Language Navigation Pretraining via Prompt-based Environmental
Self-exploration [83.96729205383501]
本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。
我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
論文 参考訳(メタデータ) (2022-03-08T11:01:24Z) - Reinforcement Learning with Prototypical Representations [114.35801511501639]
Proto-RLは、プロトタイプ表現を通じて表現学習と探索を結び付ける自己監督型フレームワークである。
これらのプロトタイプは、エージェントの探索経験の要約と同時に、観察を表す基盤としても機能する。
これにより、困難な連続制御タスクのセットで最新の下流ポリシー学習が可能になります。
論文 参考訳(メタデータ) (2021-02-22T18:56:34Z) - Language-guided Navigation via Cross-Modal Grounding and Alternate
Adversarial Learning [66.9937776799536]
新たなビジョン・アンド・ランゲージナビゲーション(VLN)問題は、見えない写真リアリスティック環境において、エージェントがターゲットの場所に向かうことを学習することを目的としている。
VLNの主な課題は、主に2つの側面から生じている: まず、エージェントは動的に変化する視覚環境に対応する言語命令の有意義な段落に出席する必要がある。
そこで本稿では,エージェントにテキストと視覚の対応性を追跡する機能を持たせるために,クロスモーダルグラウンドモジュールを提案する。
論文 参考訳(メタデータ) (2020-11-22T09:13:46Z) - Soft Expert Reward Learning for Vision-and-Language Navigation [94.86954695912125]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従うことで、目に見えない環境で特定の場所を見つける必要がある。
本稿では,VLNタスクの工学的設計と一般化問題を克服するために,ソフトエキスパート・リワード・ラーニング(SERL)モデルを導入する。
論文 参考訳(メタデータ) (2020-07-21T14:17:36Z) - Towards Learning a Generic Agent for Vision-and-Language Navigation via
Pre-training [150.35927365127176]
視覚・言語ナビゲーション(VLN)タスクのための,最初の事前学習および微調整パラダイムを提案する。
自己教師付き学習方式で大量の画像-テキスト-アクション三つ子を訓練することにより、事前学習されたモデルは、視覚環境と言語命令の一般的な表現を提供する。
新たなタスクにおいてより効果的に学習し、以前は目に見えない環境でより良く一般化する。
論文 参考訳(メタデータ) (2020-02-25T03:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。