論文の概要: LTL2Action: Generalizing LTL Instructions for Multi-Task RL
- arxiv url: http://arxiv.org/abs/2102.06858v1
- Date: Sat, 13 Feb 2021 04:05:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 09:27:51.749594
- Title: LTL2Action: Generalizing LTL Instructions for Multi-Task RL
- Title(参考訳): LTL2Action:マルチタスクRLのためのLTL命令の一般化
- Authors: Pashootan Vaezipoor, Andrew Li, Rodrigo Toro Icarte, Sheila McIlraith
- Abstract要約: 我々は,マルチタスク環境における指示に従うために,深層強化学習(RL)エージェントを指導する問題に対処する。
我々は、ドメイン固有の語彙を用いて命令を指定するために、よく知られた形式言語(線形時間論理(LTL))を用いる。
- 参考スコア(独自算出の注目度): 4.245018630914216
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address the problem of teaching a deep reinforcement learning (RL) agent
to follow instructions in multi-task environments. We employ a well-known
formal language -- linear temporal logic (LTL) -- to specify instructions,
using a domain-specific vocabulary. We propose a novel approach to learning
that exploits the compositional syntax and the semantics of LTL, enabling our
RL agent to learn task-conditioned policies that generalize to new
instructions, not observed during training. The expressive power of LTL
supports the specification of a diversity of complex temporally extended
behaviours that include conditionals and alternative realizations. Experiments
on discrete and continuous domains demonstrate the strength of our approach in
learning to solve (unseen) tasks, given LTL instructions.
- Abstract(参考訳): 我々は,マルチタスク環境における指示に従うために,深層強化学習(RL)エージェントを指導する問題に対処する。
我々は、ドメイン固有の語彙を用いて命令を指定するために、よく知られた形式言語(線形時間論理(LTL))を用いる。
LTLの構成構文とセマンティクスを活用する新しい学習アプローチを提案し、RLエージェントはトレーニング中に観察されない新しい指示に一般化するタスクコンディショニングポリシーを学ぶことができます。
LTLの表現力は、条件や代替実現を含む複雑な時間的拡張行動の多様性の仕様をサポートする。
離散的かつ連続的な領域の実験は、LTL命令が与えられた場合の(目に見えない)タスクを学習する際のアプローチの強みを実証する。
関連論文リスト
- Fine-tuning Large Language Models with Sequential Instructions [2.8967653906025426]
大きな言語モデル(LLM)は、その一部を無視したり誤解させたりするため、単一のクエリで命令列に従うのに苦労する。
本稿では,命令処理データを自動的に拡張し,複数の逐次命令を実行する能力を備えたLCMを装備するシーケンシャル命令チューニング手法を提案する。
逐次的命令調整モデルは、推論、多言語、マルチモーダル能力を含む下流タスクにおいて、従来の命令調整ベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2024-03-12T16:33:30Z) - DEEP-ICL: Definition-Enriched Experts for Language Model In-Context
Learning [61.85871109164743]
大規模言語モデル(LLM)におけるパラメータの多さは、コンテキスト内学習(ICL)の能力を促進すると長い間考えられてきた。
ICL のための新しいタスク定義拡張 ExPert Ensembling Method である DEEP-ICL を紹介する。
ICLの改善はモデルのサイズに直接依存するのではなく、基本的にはタスク定義やタスク誘導学習の理解に起因している、と我々は主張する。
論文 参考訳(メタデータ) (2024-03-07T05:26:41Z) - From Language Modeling to Instruction Following: Understanding the
Behavior Shift in LLMs after Instruction Tuning [66.82960120533544]
そこで本研究では,本質的な変化に着目した事前学習モデルの調整方法について検討する。
次に、事前訓練されたモデルと命令調整されたモデルから導かれた説明を比較して、命令チューニングの影響について研究する。
論文 参考訳(メタデータ) (2023-09-30T21:16:05Z) - On Conditional and Compositional Language Model Differentiable Prompting [75.76546041094436]
プロンプトは、下流タスクでうまく機能するために、凍結した事前訓練言語モデル(PLM)を適応するための効果的な方法であることが示されている。
タスク命令や入力メタデータを連続的なプロンプトに変換することを学習する新しいモデル Prompt Production System (PRopS) を提案する。
論文 参考訳(メタデータ) (2023-07-04T02:47:42Z) - Natural Language-conditioned Reinforcement Learning with Inside-out Task
Language Development and Translation [14.176720914723127]
自然言語条件強化学習(英語版) (RL) により、エージェントは人間の指示に従うことができる。
従来のアプローチでは、自然言語(NL)におけるヒューマンインストラクションを提供し、以下のポリシーをトレーニングすることで、言語条件付きRLの実装が一般的であった。
我々は,タスク関連でユニークなタスク言語(TL)を開発することにより,自然言語条件付きRLの内在型スキームを開発する。
論文 参考訳(メタデータ) (2023-02-18T15:49:09Z) - Generalizing LTL Instructions via Future Dependent Options [7.8578244861940725]
本稿では,学習効率と最適性を向上した新しいマルチタスクアルゴリズムを提案する。
将来のサブゴールを満たす報酬をより効率的に伝達するために,サブゴール列に条件付きマルチステップ関数を訓練することを提案する。
3つの異なる領域の実験において、提案アルゴリズムにより訓練されたエージェントの一般化能力を評価する。
論文 参考訳(メタデータ) (2022-12-08T21:44:18Z) - Interactive Learning from Natural Language and Demonstrations using
Signal Temporal Logic [5.88797764615148]
自然言語(NL)は曖昧で、現実世界のタスクであり、それらの安全性要件はあいまいにコミュニケーションする必要がある。
Signal Temporal Logic (STL) は、ロボットタスクを記述するための汎用的で表現力があり、曖昧な形式言語として機能する形式論理である。
DIALOGUESTLは,(しばしば)曖昧なNL記述から正確かつ簡潔なSTL公式を学習するための対話的手法である。
論文 参考訳(メタデータ) (2022-07-01T19:08:43Z) - Counterfactual Cycle-Consistent Learning for Instruction Following and
Generation in Vision-Language Navigation [172.15808300686584]
本稿では,2つのタスクを同時に学習し,それぞれのトレーニングを促進するために本質的な相関性を利用するアプローチについて述べる。
提案手法は,様々な追従モデルの性能を改善し,正確なナビゲーション命令を生成する。
論文 参考訳(メタデータ) (2022-03-30T18:15:26Z) - LISA: Learning Interpretable Skill Abstractions from Language [85.20587800593293]
言語条件による実演から多種多様な解釈可能なスキルを学習できる階層型模倣学習フレームワークを提案する。
本手法は, 逐次的意思決定問題において, 言語に対するより自然な条件付け方法を示す。
論文 参考訳(メタデータ) (2022-02-28T19:43:24Z) - Contrastive Instruction-Trajectory Learning for Vision-Language
Navigation [66.16980504844233]
視覚言語ナビゲーション(VLN)タスクでは、エージェントが自然言語の指示でターゲットに到達する必要がある。
先行研究は、命令-軌道対間の類似点と相違点を識別できず、サブ命令の時間的連続性を無視する。
本稿では、類似したデータサンプル間の分散と、異なるデータサンプル間の分散を探索し、ロバストなナビゲーションのための独特な表現を学習するContrastive Instruction-Trajectory Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-08T06:32:52Z) - ELLA: Exploration through Learned Language Abstraction [6.809870486883877]
ELLAは、環境によって提供されるスパースな報酬を豊かにするために、単純な低レベルの指示と高レベルの指示と相関する報酬形成アプローチです。
ELLAは、競合言語ベースの報酬形成やノーシェイピング方法と比較して、複数の環境でサンプル効率が大幅に向上しています。
論文 参考訳(メタデータ) (2021-03-10T02:18:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。