論文の概要: Visual-Language Navigation Pretraining via Prompt-based Environmental
Self-exploration
- arxiv url: http://arxiv.org/abs/2203.04006v1
- Date: Tue, 8 Mar 2022 11:01:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-09 13:30:42.740533
- Title: Visual-Language Navigation Pretraining via Prompt-based Environmental
Self-exploration
- Title(参考訳): プロンプト型環境自己探索による視覚言語ナビゲーション事前学習
- Authors: Xiwen Liang, Fengda Zhu, Lingling Li, Hang Xu, Xiaodan Liang
- Abstract要約: 本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。
我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
- 参考スコア(独自算出の注目度): 83.96729205383501
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language navigation (VLN) is a challenging task due to its large
searching space in the environment. To address this problem, previous works
have proposed some methods of fine-tuning a large model that pretrained on
large-scale datasets. However, the conventional fine-tuning methods require
extra human-labeled navigation data and lack self-exploration capabilities in
environments, which hinders their generalization of unseen scenes. To improve
the ability of fast cross-domain adaptation, we propose Prompt-based
Environmental Self-exploration (ProbES), which can self-explore the
environments by sampling trajectories and automatically generates structured
instructions via a large-scale cross-modal pretrained model (CLIP). Our method
fully utilizes the knowledge learned from CLIP to build an in-domain dataset by
self-exploration without human labeling. Unlike the conventional approach of
fine-tuning, we introduce prompt-based learning to achieve fast adaptation for
language embeddings, which substantially improves the learning efficiency by
leveraging prior knowledge. By automatically synthesizing
trajectory-instruction pairs in any environment without human supervision and
efficient prompt-based learning, our model can adapt to diverse vision-language
navigation tasks, including VLN and REVERIE. Both qualitative and quantitative
results show that our ProbES significantly improves the generalization ability
of the navigation model.
- Abstract(参考訳): 視覚言語ナビゲーション(VLN)は、環境の大きな探索空間のため難しい課題である。
この問題に対処するため,従来の研究では,大規模データセット上で事前学習した大規模モデルを微調整する方法が提案されている。
しかし、従来の微調整方法は、追加の人間ラベルのナビゲーションデータを必要とし、環境における自己探索能力が欠如しており、見えないシーンの一般化を妨げている。
高速クロスドメイン適応の能力を向上させるために,トラジェクタをサンプリングし,大規模クロスモーダル事前学習モデル (clip) による構造化命令を自動的に生成することにより,環境を自発的に探索できるプロンプトベース環境自己探索 (probes) を提案する。
提案手法は,CLIPから学んだ知識をフル活用して,自己探索によるドメイン内データセットの構築を行う。
従来の微調整手法と異なり,事前知識の活用により学習効率が大幅に向上する言語組込みの高速適応を実現するために,プロンプトベースの学習を導入する。
VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに,人間の監督や効率的なプロンプトベースの学習を伴わずに,任意の環境における軌道指示ペアの自動合成を行うことにより,我々のモデルは適応できる。
定性的かつ定量的な結果は,我々のProbESがナビゲーションモデルの一般化能力を大幅に向上させることを示している。
関連論文リスト
- TINA: Think, Interaction, and Action Framework for Zero-Shot Vision Language Navigation [11.591176410027224]
本稿では,Large Language Models(LLM)に基づく視覚言語ナビゲーション(VLN)エージェントを提案する。
環境認識におけるLLMの欠点を補うための思考・相互作用・行動の枠組みを提案する。
また,本手法は教師付き学習手法よりも優れ,ゼロショットナビゲーションの有効性を強調した。
論文 参考訳(メタデータ) (2024-03-13T05:22:39Z) - Masked Path Modeling for Vision-and-Language Navigation [41.7517631477082]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)エージェントは、自然言語の指示に従うことで現実世界の環境をナビゲートするように訓練されている。
以前のアプローチでは、トレーニング中に追加の監督を導入することでこの問題に対処しようと試みていた。
本稿では,下流ナビゲーションタスクに自己コンパイルデータを用いてエージェントを事前訓練する,マスク付きパスモデリング(MPM)手法を提案する。
論文 参考訳(メタデータ) (2023-05-23T17:20:20Z) - Curriculum Learning for Vision-and-Language Navigation [16.695511663714214]
VLN(Vision-and-Language Navigation)は、エージェントが人間の指示で室内環境をナビゲートするタスクである。
従来の研究はサンプルの難易度分布を無視しており、エージェントの性能を低下させる可能性があると論じている。
本稿では,人間の事前知識とエージェント学習の進捗をバランスさせる,VLNタスクのためのカリキュラムベースの新しいトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2021-11-14T03:02:07Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Learning to Continuously Optimize Wireless Resource In Episodically
Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。
本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。
我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文 参考訳(メタデータ) (2020-11-16T08:24:34Z) - Meta-learning the Learning Trends Shared Across Tasks [123.10294801296926]
グラディエントベースのメタ学習アルゴリズムは、限られたデータで新しいタスクに素早く適応する。
既存のメタ学習アプローチは、適応中の現在のタスク情報にのみ依存する。
パターン認識型メタラーニング手法を提案する。
論文 参考訳(メタデータ) (2020-10-19T08:06:47Z) - Pre-trained Word Embeddings for Goal-conditional Transfer Learning in
Reinforcement Learning [0.0]
本稿では,事前訓練されたタスク非依存言語モデルによって,目標条件付きRLエージェントをより効率的にする方法について述べる。
私たちは、異なる関連するタスク間の伝達学習を容易にすることで、これを実現します。
論文 参考訳(メタデータ) (2020-07-10T06:42:00Z) - Recall and Learn: Fine-tuning Deep Pretrained Language Models with Less
Forgetting [66.45372974713189]
本稿では,マルチタスク学習の概念を取り入れたリコール・アンド・ラーニング機構を提案し,事前学習タスクと下流タスクを共同で学習する。
実験により,本手法はGLUEベンチマークの最先端性能を実現することが示された。
我々はオープンソースのRecAdamを提供し、提案されたメカニズムをAdamに統合し、NLPコミュニティを施設化する。
論文 参考訳(メタデータ) (2020-04-27T08:59:57Z) - Environment-agnostic Multitask Learning for Natural Language Grounded
Navigation [88.69873520186017]
本稿では,視覚言語ナビゲーション(VLN)タスクと対話履歴からのナビゲーション(NDH)タスクをシームレスにトレーニングできるマルチタスクナビゲーションモデルを提案する。
実験により、環境に依存しないマルチタスク学習は、目に見える環境と目に見えない環境の間のパフォーマンスギャップを著しく減少させることが示された。
論文 参考訳(メタデータ) (2020-03-01T09:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。