論文の概要: Learning to Follow Language Instructions with Compositional Policies
- arxiv url: http://arxiv.org/abs/2110.04647v1
- Date: Sat, 9 Oct 2021 21:28:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 15:11:14.784558
- Title: Learning to Follow Language Instructions with Compositional Policies
- Title(参考訳): 構成ポリシーによる言語指導の追跡学習
- Authors: Vanya Cohen, Geraud Nangue Tasse, Nakul Gopalan, Steven James, Matthew
Gombolay, Benjamin Rosman
- Abstract要約: 本稿では,目標達成タスクからなる環境下で自然言語命令を実行することを学習するフレームワークを提案する。
我々は強化学習エージェントを訓練し、その後ブール代数を通して構成できる値関数を学習する。
我々は、Webスケールコーパスで事前訓練されたSeq2seqモデルを微調整し、言語を論理式にマッピングする。
- 参考スコア(独自算出の注目度): 22.778677208048475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a framework that learns to execute natural language instructions
in an environment consisting of goal-reaching tasks that share components of
their task descriptions. Our approach leverages the compositionality of both
value functions and language, with the aim of reducing the sample complexity of
learning novel tasks. First, we train a reinforcement learning agent to learn
value functions that can be subsequently composed through a Boolean algebra to
solve novel tasks. Second, we fine-tune a seq2seq model pretrained on web-scale
corpora to map language to logical expressions that specify the required value
function compositions. Evaluating our agent in the BabyAI domain, we observe a
decrease of 86% in the number of training steps needed to learn a second task
after mastering a single task. Results from ablation studies further indicate
that it is the combination of compositional value functions and language
representations that allows the agent to quickly generalize to new tasks.
- Abstract(参考訳): 本稿では,タスク記述の構成要素を共有する目標到達タスクからなる環境において,自然言語命令の実行を学習するフレームワークを提案する。
提案手法は,新しいタスクを学習するサンプルの複雑さを減らすことを目的として,価値関数と言語の組み合わせ性を活用する。
まず、強化学習エージェントを訓練し、その後ブール代数を通して構成できる値関数を学習し、新しい課題を解決する。
次に,web スケールコーパス上で事前学習した seq2seq モデルを微調整し,必要な値関数の構成を規定する論理式に言語をマッピングする。
BabyAIドメインにおけるエージェントの評価では、ひとつのタスクをマスターした後で2番目のタスクを学習するために必要なトレーニングステップの数が86%減少している。
アブレーション研究の結果、これは合成値関数と言語表現の組み合わせであり、エージェントがすぐに新しいタスクに一般化できることを示している。
関連論文リスト
- Did You Read the Instructions? Rethinking the Effectiveness of Task
Definitions in Instruction Learning [74.70157466822612]
教科学習におけるタスク定義の役割を体系的に研究する。
タスク出力を記述する内容を削除すると,モデルの性能が大幅に低下することがわかった。
本稿では,モデルのタスク命令の活用を支援するための2つの戦略を提案する。
論文 参考訳(メタデータ) (2023-06-01T21:11:24Z) - Language-guided Task Adaptation for Imitation Learning [40.1007184209417]
本稿では,自然言語でコミュニケーションするタスク間の差異を指標として,関連するタスクのデモンストレーションからタスクを学習する,新たな設定を提案する。
提案した設定では、低労力の言語記述を提供することで、他のタスクからのデモを再利用することができ、エージェントエラーの修正にフィードバックを提供することもできる。
論文 参考訳(メタデータ) (2023-01-24T00:56:43Z) - Coarse-to-Fine: Hierarchical Multi-task Learning for Natural Language
Understanding [51.31622274823167]
本稿では,各タスクの下位レベルを全タスクに共有し,中間レベルを異なるグループに分割し,上位レベルを各タスクに割り当てる,粗大なパラダイムを持つ階層型フレームワークを提案する。
これにより、すべてのタスクから基本言語特性を学習し、関連するタスクのパフォーマンスを高め、無関係なタスクから負の影響を減らすことができる。
論文 参考訳(メタデータ) (2022-08-19T02:46:20Z) - Compositional Generalization in Grounded Language Learning via Induced
Model Sparsity [81.38804205212425]
グリッド環境における単純な言語条件のナビゲーション問題について考察する。
本研究では,オブジェクトの指示文と属性のスパース相関を助長するエージェントを設計し,それらを組み合わせて目的を導出する。
我々のエージェントは、少数のデモンストレーションから学習した場合でも、新しいプロパティの組み合わせを含む目標に対して高いレベルのパフォーマンスを維持している。
論文 参考訳(メタデータ) (2022-07-06T08:46:27Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Combining Modular Skills in Multitask Learning [149.8001096811708]
モジュラー設計は、ニューラルネットワークが様々な知識の面をアンタングルして再結合し、新しいタスクにより系統的に一般化することを奨励する。
この研究では、各タスクは(潜在的に小さな)インベントリから潜在的な離散スキルのサブセットと関連付けられていると仮定する。
ネットワークのモジュラー設計により、強化学習におけるサンプル効率が著しく向上し、教師あり学習における数ショットの一般化が図られる。
論文 参考訳(メタデータ) (2022-02-28T16:07:19Z) - Grad2Task: Improved Few-shot Text Classification Using Gradients for
Task Representation [24.488427641442694]
本稿では,数ショットのテキスト分類のための条件付きニューラルプロセスに基づく新しいアプローチを提案する。
私たちのキーとなるアイデアは、ベースモデルからの勾配情報を使って各タスクを表現することです。
我々のアプローチは、従来の微調整、シーケンシャルトランスファーラーニング、そして最先端のメタラーニングアプローチよりも優れています。
論文 参考訳(メタデータ) (2022-01-27T15:29:30Z) - ERICA: Improving Entity and Relation Understanding for Pre-trained
Language Models via Contrastive Learning [97.10875695679499]
そこで本研究では, ERICA という新たなコントラスト学習フレームワークを提案し, エンティティとその関係をテキストでより深く理解する。
実験の結果,提案する erica フレームワークは文書レベルの言語理解タスクにおいて一貫した改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:35:22Z) - A Boolean Task Algebra for Reinforcement Learning [14.731788603429774]
タスクの論理的構成をブール代数として定式化する。
目標志向の値関数を学習することで,エージェントが新たなタスクを学習せずに解決できることが示される。
論文 参考訳(メタデータ) (2020-01-06T04:46:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。