論文の概要: Generalizing LTL Instructions via Future Dependent Options
- arxiv url: http://arxiv.org/abs/2212.04576v1
- Date: Thu, 8 Dec 2022 21:44:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 15:05:13.382197
- Title: Generalizing LTL Instructions via Future Dependent Options
- Title(参考訳): 将来の依存オプションによるLTL命令の一般化
- Authors: Duo Xu, Faramarz Fekri
- Abstract要約: 本稿では,学習効率と最適性を向上した新しいマルチタスクアルゴリズムを提案する。
将来のサブゴールを満たす報酬をより効率的に伝達するために,サブゴール列に条件付きマルチステップ関数を訓練することを提案する。
3つの異なる領域の実験において、提案アルゴリズムにより訓練されたエージェントの一般化能力を評価する。
- 参考スコア(独自算出の注目度): 7.8578244861940725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Linear temporal logic (LTL) is a widely-used task specification language
which has a compositional grammar that naturally induces temporally extended
behaviours across tasks, including conditionals and alternative realizations.
An important problem i RL with LTL tasks is to learn task-conditioned policies
which can zero-shot generalize to new LTL instructions not observed in the
training. However, because symbolic observation is often lossy and LTL tasks
can have long time horizon, previous works can suffer from issues such as
training sampling inefficiency and infeasibility or sub-optimality of the found
solutions. In order to tackle these issues, this paper proposes a novel
multi-task RL algorithm with improved learning efficiency and optimality. To
achieve the global optimality of task completion, we propose to learn options
dependent on the future subgoals via a novel off-policy approach. In order to
propagate the rewards of satisfying future subgoals back more efficiently, we
propose to train a multi-step value function conditioned on the subgoal
sequence which is updated with Monte Carlo estimates of multi-step discounted
returns. In experiments on three different domains, we evaluate the LTL
generalization capability of the agent trained by the proposed method, showing
its advantage over previous representative methods.
- Abstract(参考訳): 線形時相論理(LTL)は、条件付きや代替的な実現を含むタスク間で時間的に拡張された振る舞いを自然に誘導する構成文法を持つ、広く使われているタスク仕様言語である。
LTLタスクにおけるi RLの重要な問題は、訓練中に観察されない新しいLTL命令にゼロショットで一般化できるタスク条件付きポリシーを学習することである。
しかしながら、シンボリックな観察はしばしば失われ、ltlタスクは長い時間軸を持つため、以前の作品ではサンプリング非効率の訓練や、検出された解の非実現性、あるいはサブオプティリティといった問題に苦しむことがある。
そこで本研究では,学習効率と最適性を向上したマルチタスクRLアルゴリズムを提案する。
タスク完了のグローバル最適性を達成するために、新しいオフ・ポリシー・アプローチにより、将来のサブゴールに依存する選択肢を学習することを提案する。
将来のサブゴールを満たす報酬をより効率的に伝達するために,モンテカルロのマルチステップ割引リターンの推定値で更新されたサブゴール列に条件付き多段階値関数を訓練することを提案する。
3つの異なる領域における実験において,提案手法で訓練されたエージェントのltl一般化能力を評価し,その利点を示した。
関連論文リスト
- How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Active Instruction Tuning: Improving Cross-Task Generalization by
Training on Prompt Sensitive Tasks [101.40633115037983]
インストラクションチューニング(IT)は,大規模言語モデル(LLM)を命令付き多種多様なタスクで訓練することにより,印象的なゼロショット一般化を実現する。
ITモデルの性能と一般化性を改善するために、新しいタスクをどのように選択するかは、未解決の問題である。
本稿では,情報的タスクを識別する新しいフレームワークである即時不確実性に基づくアクティブな指導チューニングを提案し,選択したタスク上でモデルをアクティブにチューニングする。
論文 参考訳(メタデータ) (2023-11-01T04:40:05Z) - LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient
Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。
この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。
第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文 参考訳(メタデータ) (2023-08-21T02:07:35Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - Hypernetworks for Zero-shot Transfer in Reinforcement Learning [21.994654567458017]
Hypernetworksは、目に見えないさまざまなタスク条件で振る舞いを生成するように訓練されている。
この研究はメタRL、文脈RL、伝達学習に関連している。
提案手法は,マルチタスクおよびメタRLアプローチによるベースラインの大幅な改善を示す。
論文 参考訳(メタデータ) (2022-11-28T15:48:35Z) - Improving Multi-task Learning via Seeking Task-based Flat Regions [43.85516379095757]
MTL(Multi-Task Learning)は、ディープニューラルネットワークをトレーニングするための強力な学習パラダイムである。
MTLには、究極の勾配降下方向を導出するためにタスク勾配を操作することに焦点を当てた、新たな作業ラインがある。
単タスク学習におけるモデル一般化能力を向上するシャープネス認識最小化という,最近導入されたトレーニング手法を活用することを提案する。
論文 参考訳(メタデータ) (2022-11-24T17:19:30Z) - Efficient Meta Reinforcement Learning for Preference-based Fast
Adaptation [17.165083095799712]
本研究では,ループ内強化学習の文脈における少数ショット適応の問題について検討する。
そこで我々は,嗜好に基づくフィードバックによる迅速なポリシー適応を実現するメタRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-11-20T03:55:09Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - LTL2Action: Generalizing LTL Instructions for Multi-Task RL [4.245018630914216]
我々は,マルチタスク環境における指示に従うために,深層強化学習(RL)エージェントを指導する問題に対処する。
我々は、ドメイン固有の語彙を用いて命令を指定するために、よく知られた形式言語(線形時間論理(LTL))を用いる。
論文 参考訳(メタデータ) (2021-02-13T04:05:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。