論文の概要: ELLA: Exploration through Learned Language Abstraction
- arxiv url: http://arxiv.org/abs/2103.05825v1
- Date: Wed, 10 Mar 2021 02:18:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-11 15:09:15.304486
- Title: ELLA: Exploration through Learned Language Abstraction
- Title(参考訳): ELLA: 学習言語抽象化による探索
- Authors: Suvir Mirchandani, Siddharth Karamcheti, Dorsa Sadigh
- Abstract要約: ELLAは、環境によって提供されるスパースな報酬を豊かにするために、単純な低レベルの指示と高レベルの指示と相関する報酬形成アプローチです。
ELLAは、競合言語ベースの報酬形成やノーシェイピング方法と比較して、複数の環境でサンプル効率が大幅に向上しています。
- 参考スコア(独自算出の注目度): 6.809870486883877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building agents capable of understanding language instructions is critical to
effective and robust human-AI collaboration. Recent work focuses on training
these instruction following agents via reinforcement learning in environments
with synthetic language; however, these instructions often define long-horizon,
sparse-reward tasks, and learning policies requires many episodes of
experience. To this end, we introduce ELLA: Exploration through Learned
Language Abstraction, a reward shaping approach that correlates high-level
instructions with simpler low-level instructions to enrich the sparse rewards
afforded by the environment. ELLA has two key elements: 1) A termination
classifier that identifies when agents complete low-level instructions, and 2)
A relevance classifier that correlates low-level instructions with success on
high-level tasks. We learn the termination classifier offline from pairs of
instructions and terminal states. Notably, in departure from prior work in
language and abstraction, we learn the relevance classifier online, without
relying on an explicit decomposition of high-level instructions to low-level
instructions. On a suite of complex grid world environments with varying
instruction complexities and reward sparsity, ELLA shows a significant gain in
sample efficiency across several environments compared to competitive
language-based reward shaping and no-shaping methods.
- Abstract(参考訳): 言語命令を理解することができるエージェントの構築は、効果的で堅牢な人間とAIのコラボレーションに不可欠である。
最近の研究は, 合成言語を用いた環境下での強化学習によるエージェントの訓練に焦点が当てられているが, 長い水平, スパース・リワードタスクを定義し, 学習方針には経験のエピソードが数多く必要である。
そこで、ELA:Exploration through Learned Language Abstractionは、高レベルの命令とシンプルな低レベルの命令とを関連付けて、環境によって提供されるスパースな報酬を豊かにする報酬形成アプローチです。
ELLAには2つの重要な要素がある: 1)エージェントが低レベル命令を完了したときに識別する終了分類器と2)低レベル命令と高レベルタスクの成功とを相関する関連分類器である。
終端分類器は命令と終端状態のペアからオフラインで学習する。
特に、言語と抽象化の以前の作業から離れて、低レベルの命令に対する高レベルの命令の明示的な分解に頼ることなく、オンラインの関連性分類器を学びます。
さまざまな命令の複雑さと報酬のスパーシティを備えた複雑なグリッドワールド環境のスイートでは、ELLAは、競合する言語ベースの報酬形成とノーシェイピング方法と比較して、複数の環境におけるサンプル効率の大幅な向上を示しています。
関連論文リスト
- Words as Beacons: Guiding RL Agents with High-Level Language Prompts [6.7236795813629]
大型言語モデル(LLM)は「教師」として、複雑なタスクをサブゴールに分解することでエージェントの学習プロセスを導く。
LLMは、人間と同じような方法で、環境のために定義されたタスクを達成するためのサブゴールを提供することができる。
トレーニングフェーズの間のみLLMに問い合わせることができ、エージェントはLLMの介入なしに環境内で操作できる。
論文 参考訳(メタデータ) (2024-10-11T08:54:45Z) - Instruction Following with Goal-Conditioned Reinforcement Learning in Virtual Environments [42.06453257292203]
本稿では,大規模言語モデルの深い言語理解と強化学習エージェントの適応行動実行能力を組み合わせた階層型フレームワークを提案する。
IGLUではエージェントが構造を構築するように指示され、Crafterではエージェントがタスクを実行し、言語コマンドに従って周辺環境のオブジェクトと対話する。
論文 参考訳(メタデータ) (2024-07-12T14:19:36Z) - kNN-ICL: Compositional Task-Oriented Parsing Generalization with Nearest
Neighbor In-Context Learning [50.40636157214161]
Task-Oriented Parsing (TOP)により、会話アシスタントは自然言語で表現されたユーザーコマンドを解釈できる。
LLMは、自然言語のプロンプトに基づいて、コンピュータプログラムにおいて印象的な性能を達成した。
本稿では,LLMのセマンティック解析機能を活用することに焦点を当てる。
論文 参考訳(メタデータ) (2023-12-17T17:26:50Z) - Counterfactual Cycle-Consistent Learning for Instruction Following and
Generation in Vision-Language Navigation [172.15808300686584]
本稿では,2つのタスクを同時に学習し,それぞれのトレーニングを促進するために本質的な相関性を利用するアプローチについて述べる。
提案手法は,様々な追従モデルの性能を改善し,正確なナビゲーション命令を生成する。
論文 参考訳(メタデータ) (2022-03-30T18:15:26Z) - LISA: Learning Interpretable Skill Abstractions from Language [85.20587800593293]
言語条件による実演から多種多様な解釈可能なスキルを学習できる階層型模倣学習フレームワークを提案する。
本手法は, 逐次的意思決定問題において, 言語に対するより自然な条件付け方法を示す。
論文 参考訳(メタデータ) (2022-02-28T19:43:24Z) - FILM: Following Instructions in Language with Modular Methods [109.73082108379936]
近年のインボディード・インストラクションの手法は、模倣学習を用いてエンド・ツー・エンドで訓練されている。
本稿では,シーンのセマンティックマップを構築し,セマンティック検索ポリシーを用いて探索を行う構造化表現を用いたモジュラー手法を提案する。
以上の結果から,空間記憶の明示と意味探索の方針が,状態追跡とガイダンスのためのより強固で汎用的な表現を提供する可能性が示唆された。
論文 参考訳(メタデータ) (2021-10-12T16:40:01Z) - Skill Induction and Planning with Latent Language [94.55783888325165]
我々は、ゴールがハイレベルなサブタスク記述のシーケンスを生成するアクションシーケンスの生成モデルを定式化する。
本稿では、このモデルを、主に注釈のないデモを用いて、名前付きハイレベルなサブタスクのシーケンスに解析する方法について述べる。
訓練されたモデルでは、自然言語コマンドの空間はスキルのライブラリを索引付けする;エージェントはこれらのスキルを使って、新しい目標に適した高いレベルの命令シーケンスを生成する。
論文 参考訳(メタデータ) (2021-10-04T15:36:32Z) - ERICA: Improving Entity and Relation Understanding for Pre-trained
Language Models via Contrastive Learning [97.10875695679499]
そこで本研究では, ERICA という新たなコントラスト学習フレームワークを提案し, エンティティとその関係をテキストでより深く理解する。
実験の結果,提案する erica フレームワークは文書レベルの言語理解タスクにおいて一貫した改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:35:22Z) - Ask Your Humans: Using Human Instructions to Improve Generalization in
Reinforcement Learning [32.82030512053361]
本研究では、自然言語の指示や行動軌跡の形で、ステップバイステップの人間の実演を行うことを提案する。
人間のデモは、最も複雑なタスクを解決するのに役立ちます。
また、自然言語を組み込むことで、ゼロショット設定で未確認のタスクを一般化できることがわかった。
論文 参考訳(メタデータ) (2020-11-01T14:39:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。