論文の概要: Soft Expert Reward Learning for Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2007.10835v1
- Date: Tue, 21 Jul 2020 14:17:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 05:07:45.282851
- Title: Soft Expert Reward Learning for Vision-and-Language Navigation
- Title(参考訳): 視覚・言語ナビゲーションのためのソフトエキスパート報酬学習
- Authors: Hu Wang, Qi Wu, Chunhua Shen
- Abstract要約: VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従うことで、目に見えない環境で特定の場所を見つける必要がある。
本稿では,VLNタスクの工学的設計と一般化問題を克服するために,ソフトエキスパート・リワード・ラーニング(SERL)モデルを導入する。
- 参考スコア(独自算出の注目度): 94.86954695912125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-Language Navigation (VLN) requires an agent to find a specified
spot in an unseen environment by following natural language instructions.
Dominant methods based on supervised learning clone expert's behaviours and
thus perform better on seen environments, while showing restricted performance
on unseen ones. Reinforcement Learning (RL) based models show better
generalisation ability but have issues as well, requiring large amount of
manual reward engineering is one of which. In this paper, we introduce a Soft
Expert Reward Learning (SERL) model to overcome the reward engineering
designing and generalisation problems of the VLN task. Our proposed method
consists of two complementary components: Soft Expert Distillation (SED) module
encourages agents to behave like an expert as much as possible, but in a soft
fashion; Self Perceiving (SP) module targets at pushing the agent towards the
final destination as fast as possible. Empirically, we evaluate our model on
the VLN seen, unseen and test splits and the model outperforms the
state-of-the-art methods on most of the evaluation metrics.
- Abstract(参考訳): VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従うことで、目に見えない環境で特定の場所を見つける必要がある。
教師付き学習クローンエキスパートの行動に基づく支配的な手法は、目に見えないものに制限されたパフォーマンスを示しながら、見かけの環境においてよりよいパフォーマンスを示す。
強化学習(RL)に基づくモデルは、より優れた一般化能力を示すが、問題もある。
本稿では,VLNタスクの報奨工学設計および一般化問題を克服するためのソフトエキスパート・リワード学習(SERL)モデルを提案する。
提案手法は2つの相補的要素からなる: ソフトエキスパート蒸留(SED)モジュールはエージェントが可能な限り専門家のように振る舞うことを奨励するが、ソフトな方法では、セルフ知覚(SP)モジュールはエージェントをできるだけ早く最終目的地へ向かわせることを目標とする。
経験的に、vln上でのモデルの評価を行い、そのモデルがほとんどの評価指標において最先端のメソッドを上回っています。
関連論文リスト
- Vision-Language Navigation with Energy-Based Policy [66.04379819772764]
視覚言語ナビゲーション(VLN)は、人間の指示に従って行動を実行するエージェントを必要とする。
共同状態-行動分布をモデル化するためのエネルギーベースナビゲーションポリシー(ENP)を提案する。
ENPはR2R、REVERIE、RxR、R2R-CEで有望なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-18T08:01:36Z) - Offline Imitation Learning with Model-based Reverse Augmentation [48.64791438847236]
本稿では,自己ペースの逆拡張によるオフラインImitation Learningという,新しいモデルベースフレームワークを提案する。
具体的には、オフラインのデモからリバース・ダイナミック・モデルを構築し、専門家が観察した状態につながる軌道を効率的に生成する。
後続の強化学習法を用いて,拡張軌道から学習し,未観測状態から未観測状態へ移行する。
論文 参考訳(メタデータ) (2024-06-18T12:27:02Z) - TINA: Think, Interaction, and Action Framework for Zero-Shot Vision Language Navigation [11.591176410027224]
本稿では,Large Language Models(LLM)に基づく視覚言語ナビゲーション(VLN)エージェントを提案する。
環境認識におけるLLMの欠点を補うための思考・相互作用・行動の枠組みを提案する。
また,本手法は教師付き学習手法よりも優れ,ゼロショットナビゲーションの有効性を強調した。
論文 参考訳(メタデータ) (2024-03-13T05:22:39Z) - Towards Learning a Generalist Model for Embodied Navigation [24.816490551945435]
そこで本研究では,NaviLLM を具体化するための最初のジェネラリストモデルを提案する。
スキーマベースの命令を導入することで、LCMをナビゲーションの具体化に適応する。
我々は,モデルの性能と一般化性を評価するため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-12-04T16:32:51Z) - ExpeL: LLM Agents Are Experiential Learners [60.54312035818746]
実験学習エージェント(ExpeL)を導入し、パラメトリック更新を必要とせずにエージェント体験から学習できるようにする。
我々のエージェントは、経験を自律的に収集し、学習課題の集合から自然言語を用いて知識を抽出する。
推論において、エージェントは抽出された洞察と過去の経験をリコールし、情報的決定を行う。
論文 参考訳(メタデータ) (2023-08-20T03:03:34Z) - Curricular Subgoals for Inverse Reinforcement Learning [21.038691420095525]
逆強化学習(IRL)は、専門家による実証から報酬関数を再構築し、政策学習を促進することを目的としている。
既存のIRL法は主に、模倣者と専門家の軌跡の違いを最小限に抑えるために、グローバル報酬関数の学習に重点を置いている。
エージェントの模倣を導くために,一タスクを複数の局所的なサブゴールで明示的に切り離す,Curricular Subgoal-based Inverse Reinforcement Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-14T04:06:41Z) - ULN: Towards Underspecified Vision-and-Language Navigation [77.81257404252132]
Underspecificified Vision-and-Language Navigation (ULN)は、視覚・言語ナビゲーション(VLN)のための新しい設定である
本稿では,分類モジュール,ナビゲーションエージェント,エクスプロイテーション・ツー・エクスプロレーション(E2E)モジュールで構成されるVLNフレームワークを提案する。
我々のフレームワークはより堅牢で、ULNのベースラインを全レベルの相対的な成功率で10%上回る。
論文 参考訳(メタデータ) (2022-10-18T17:45:06Z) - Imitation by Predicting Observations [17.86983397979034]
本研究では, 連続制御タスクの課題に対して, 専門家に匹敵する性能を達成できる観測結果のみを模倣する新しい手法を提案する。
提案手法は, 逆RL目標から導出され, 専門家の観察結果の生成モデルを用いて学習した専門家の行動モデルを用いて模倣する。
本稿では,DeepMind Control Suiteベンチマークにおける強力なベースラインIRL法(GAIL)に対して,タスク非関連機能の存在下でGAILよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2021-07-08T14:09:30Z) - A Recurrent Vision-and-Language BERT for Navigation [54.059606864535304]
本稿では,視覚・言語ナビゲーションにおける時間認識型BERTモデルを提案する。
我々のモデルは、より複雑なエンコーダデコーダモデルを置き換えることで、最先端の結果が得られる。
論文 参考訳(メタデータ) (2020-11-26T00:23:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。