論文の概要: LTL2Action: Generalizing LTL Instructions for Multi-Task RL
- arxiv url: http://arxiv.org/abs/2102.06858v1
- Date: Sat, 13 Feb 2021 04:05:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 09:27:51.749594
- Title: LTL2Action: Generalizing LTL Instructions for Multi-Task RL
- Title(参考訳): LTL2Action:マルチタスクRLのためのLTL命令の一般化
- Authors: Pashootan Vaezipoor, Andrew Li, Rodrigo Toro Icarte, Sheila McIlraith
- Abstract要約: 我々は,マルチタスク環境における指示に従うために,深層強化学習(RL)エージェントを指導する問題に対処する。
我々は、ドメイン固有の語彙を用いて命令を指定するために、よく知られた形式言語(線形時間論理(LTL))を用いる。
- 参考スコア(独自算出の注目度): 4.245018630914216
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address the problem of teaching a deep reinforcement learning (RL) agent
to follow instructions in multi-task environments. We employ a well-known
formal language -- linear temporal logic (LTL) -- to specify instructions,
using a domain-specific vocabulary. We propose a novel approach to learning
that exploits the compositional syntax and the semantics of LTL, enabling our
RL agent to learn task-conditioned policies that generalize to new
instructions, not observed during training. The expressive power of LTL
supports the specification of a diversity of complex temporally extended
behaviours that include conditionals and alternative realizations. Experiments
on discrete and continuous domains demonstrate the strength of our approach in
learning to solve (unseen) tasks, given LTL instructions.
- Abstract(参考訳): 我々は,マルチタスク環境における指示に従うために,深層強化学習(RL)エージェントを指導する問題に対処する。
我々は、ドメイン固有の語彙を用いて命令を指定するために、よく知られた形式言語(線形時間論理(LTL))を用いる。
LTLの構成構文とセマンティクスを活用する新しい学習アプローチを提案し、RLエージェントはトレーニング中に観察されない新しい指示に一般化するタスクコンディショニングポリシーを学ぶことができます。
LTLの表現力は、条件や代替実現を含む複雑な時間的拡張行動の多様性の仕様をサポートする。
離散的かつ連続的な領域の実験は、LTL命令が与えられた場合の(目に見えない)タスクを学習する際のアプローチの強みを実証する。
関連論文リスト
- Continual LLaVA: Continual Instruction Tuning in Large Vision-Language Models [93.5327725085853]
連続LLaVA(Continuous LLaVA)は、LVLMにおける連続的な命令チューニングに適したリハーサルフリーな手法である。
実験により,提案した連続LLaVAは,連続的な命令チューニング過程における忘れを著しく減らし,従来の手法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-11-04T19:55:32Z) - Layer by Layer: Uncovering Where Multi-Task Learning Happens in Instruction-Tuned Large Language Models [22.676688441884465]
タスクの多種多様な配列で訓練済みの大規模言語モデル(LLM)を微調整することが、モデル構築の一般的なアプローチとなっている。
本研究では,事前学習したLLMに符号化されたタスク固有情報と,その表現に対する指導指導の効果について検討する。
論文 参考訳(メタデータ) (2024-10-25T23:38:28Z) - DeepLTL: Learning to Efficiently Satisfy Complex LTL Specifications [59.01527054553122]
リニア時間論理(LTL)は、強化学習(RL)における複雑で時間的に拡張されたタスクを特定する強力なフォーマリズムとして最近採用されている。
既存のアプローチはいくつかの欠点に悩まされており、それらは有限水平フラグメントにのみ適用でき、最適以下の解に制限され、安全制約を適切に扱えない。
本研究では,これらの問題に対処するための新しい学習手法を提案する。
提案手法は, 自動仕様のセマンティクスを明示的に表現したB"uchiaの構造を利用して, 所望の式を満たすための真理代入の順序を条件としたポリシーを学習する。
論文 参考訳(メタデータ) (2024-10-06T21:30:38Z) - Neurosymbolic AI for Enhancing Instructability in Generative AI [7.4348066967005275]
生成AIは、テキスト、画像、音楽間でコンテンツ生成を変換し、プロンプトを通じて指示に従う能力を示した。
本稿では,ニューロシンボリックAIがLarge Language Models(LLMs)のインストラクタビリティを高めるためのより良い経路を提供する理由を考察する。
ニューロシンボリックアプローチによってタスク実行の信頼性とコンテキスト認識が向上し,LLMが動的に解釈し,より広い範囲の教育コンテキストに対応し,より精度と柔軟性が向上することを示す。
論文 参考訳(メタデータ) (2024-07-26T13:15:50Z) - On Conditional and Compositional Language Model Differentiable Prompting [75.76546041094436]
プロンプトは、下流タスクでうまく機能するために、凍結した事前訓練言語モデル(PLM)を適応するための効果的な方法であることが示されている。
タスク命令や入力メタデータを連続的なプロンプトに変換することを学習する新しいモデル Prompt Production System (PRopS) を提案する。
論文 参考訳(メタデータ) (2023-07-04T02:47:42Z) - Natural Language-conditioned Reinforcement Learning with Inside-out Task
Language Development and Translation [14.176720914723127]
自然言語条件強化学習(英語版) (RL) により、エージェントは人間の指示に従うことができる。
従来のアプローチでは、自然言語(NL)におけるヒューマンインストラクションを提供し、以下のポリシーをトレーニングすることで、言語条件付きRLの実装が一般的であった。
我々は,タスク関連でユニークなタスク言語(TL)を開発することにより,自然言語条件付きRLの内在型スキームを開発する。
論文 参考訳(メタデータ) (2023-02-18T15:49:09Z) - Generalizing LTL Instructions via Future Dependent Options [7.8578244861940725]
本稿では,学習効率と最適性を向上した新しいマルチタスクアルゴリズムを提案する。
将来のサブゴールを満たす報酬をより効率的に伝達するために,サブゴール列に条件付きマルチステップ関数を訓練することを提案する。
3つの異なる領域の実験において、提案アルゴリズムにより訓練されたエージェントの一般化能力を評価する。
論文 参考訳(メタデータ) (2022-12-08T21:44:18Z) - Interactive Learning from Natural Language and Demonstrations using
Signal Temporal Logic [5.88797764615148]
自然言語(NL)は曖昧で、現実世界のタスクであり、それらの安全性要件はあいまいにコミュニケーションする必要がある。
Signal Temporal Logic (STL) は、ロボットタスクを記述するための汎用的で表現力があり、曖昧な形式言語として機能する形式論理である。
DIALOGUESTLは,(しばしば)曖昧なNL記述から正確かつ簡潔なSTL公式を学習するための対話的手法である。
論文 参考訳(メタデータ) (2022-07-01T19:08:43Z) - Counterfactual Cycle-Consistent Learning for Instruction Following and
Generation in Vision-Language Navigation [172.15808300686584]
本稿では,2つのタスクを同時に学習し,それぞれのトレーニングを促進するために本質的な相関性を利用するアプローチについて述べる。
提案手法は,様々な追従モデルの性能を改善し,正確なナビゲーション命令を生成する。
論文 参考訳(メタデータ) (2022-03-30T18:15:26Z) - LISA: Learning Interpretable Skill Abstractions from Language [85.20587800593293]
言語条件による実演から多種多様な解釈可能なスキルを学習できる階層型模倣学習フレームワークを提案する。
本手法は, 逐次的意思決定問題において, 言語に対するより自然な条件付け方法を示す。
論文 参考訳(メタデータ) (2022-02-28T19:43:24Z) - Contrastive Instruction-Trajectory Learning for Vision-Language
Navigation [66.16980504844233]
視覚言語ナビゲーション(VLN)タスクでは、エージェントが自然言語の指示でターゲットに到達する必要がある。
先行研究は、命令-軌道対間の類似点と相違点を識別できず、サブ命令の時間的連続性を無視する。
本稿では、類似したデータサンプル間の分散と、異なるデータサンプル間の分散を探索し、ロバストなナビゲーションのための独特な表現を学習するContrastive Instruction-Trajectory Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-08T06:32:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。