論文の概要: Generalizing LTL Instructions via Future Dependent Options
- arxiv url: http://arxiv.org/abs/2212.04576v1
- Date: Thu, 8 Dec 2022 21:44:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 15:05:13.382197
- Title: Generalizing LTL Instructions via Future Dependent Options
- Title(参考訳): 将来の依存オプションによるLTL命令の一般化
- Authors: Duo Xu, Faramarz Fekri
- Abstract要約: 本稿では,学習効率と最適性を向上した新しいマルチタスクアルゴリズムを提案する。
将来のサブゴールを満たす報酬をより効率的に伝達するために,サブゴール列に条件付きマルチステップ関数を訓練することを提案する。
3つの異なる領域の実験において、提案アルゴリズムにより訓練されたエージェントの一般化能力を評価する。
- 参考スコア(独自算出の注目度): 7.8578244861940725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Linear temporal logic (LTL) is a widely-used task specification language
which has a compositional grammar that naturally induces temporally extended
behaviours across tasks, including conditionals and alternative realizations.
An important problem i RL with LTL tasks is to learn task-conditioned policies
which can zero-shot generalize to new LTL instructions not observed in the
training. However, because symbolic observation is often lossy and LTL tasks
can have long time horizon, previous works can suffer from issues such as
training sampling inefficiency and infeasibility or sub-optimality of the found
solutions. In order to tackle these issues, this paper proposes a novel
multi-task RL algorithm with improved learning efficiency and optimality. To
achieve the global optimality of task completion, we propose to learn options
dependent on the future subgoals via a novel off-policy approach. In order to
propagate the rewards of satisfying future subgoals back more efficiently, we
propose to train a multi-step value function conditioned on the subgoal
sequence which is updated with Monte Carlo estimates of multi-step discounted
returns. In experiments on three different domains, we evaluate the LTL
generalization capability of the agent trained by the proposed method, showing
its advantage over previous representative methods.
- Abstract(参考訳): 線形時相論理(LTL)は、条件付きや代替的な実現を含むタスク間で時間的に拡張された振る舞いを自然に誘導する構成文法を持つ、広く使われているタスク仕様言語である。
LTLタスクにおけるi RLの重要な問題は、訓練中に観察されない新しいLTL命令にゼロショットで一般化できるタスク条件付きポリシーを学習することである。
しかしながら、シンボリックな観察はしばしば失われ、ltlタスクは長い時間軸を持つため、以前の作品ではサンプリング非効率の訓練や、検出された解の非実現性、あるいはサブオプティリティといった問題に苦しむことがある。
そこで本研究では,学習効率と最適性を向上したマルチタスクRLアルゴリズムを提案する。
タスク完了のグローバル最適性を達成するために、新しいオフ・ポリシー・アプローチにより、将来のサブゴールに依存する選択肢を学習することを提案する。
将来のサブゴールを満たす報酬をより効率的に伝達するために,モンテカルロのマルチステップ割引リターンの推定値で更新されたサブゴール列に条件付き多段階値関数を訓練することを提案する。
3つの異なる領域における実験において,提案手法で訓練されたエージェントのltl一般化能力を評価し,その利点を示した。
関連論文リスト
- Continual LLaVA: Continual Instruction Tuning in Large Vision-Language Models [93.5327725085853]
連続LLaVA(Continuous LLaVA)は、LVLMにおける連続的な命令チューニングに適したリハーサルフリーな手法である。
実験により,提案した連続LLaVAは,連続的な命令チューニング過程における忘れを著しく減らし,従来の手法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-11-04T19:55:32Z) - Exploring RL-based LLM Training for Formal Language Tasks with Programmed Rewards [49.7719149179179]
本稿では,PPOを用いた強化学習(RL)の実現可能性について検討する。
我々は,生成した出力の質を自動的に評価するために,明示的な報酬関数をプログラムできるプログラミングなどの形式言語で表されるタスクに焦点をあてる。
以上の結果から,2つの形式言語タスクに対する純粋なRLベースのトレーニングは困難であり,単純な算術タスクにおいても成功は限られていることがわかった。
論文 参考訳(メタデータ) (2024-10-22T15:59:58Z) - Generalization of Compositional Tasks with Logical Specification via Implicit Planning [14.46490764849977]
本稿では,タスク一般化の効率性と最適性を向上する階層的RLフレームワークを提案する。
高いレベルでは、作曲タスクの一般化に特化して設計された暗黙のプランナーを示す。
潜時遷移モデルを学び、グラフニューラルネットワーク(GNN)を用いて潜時空間で計画を実行する。
論文 参考訳(メタデータ) (2024-10-13T00:57:10Z) - DeepLTL: Learning to Efficiently Satisfy Complex LTL Specifications [59.01527054553122]
リニア時間論理(LTL)は、強化学習(RL)における複雑で時間的に拡張されたタスクを特定する強力なフォーマリズムとして最近採用されている。
既存のアプローチはいくつかの欠点に悩まされており、それらは有限水平フラグメントにのみ適用でき、最適以下の解に制限され、安全制約を適切に扱えない。
本研究では,これらの問題に対処するための新しい学習手法を提案する。
提案手法は, 自動仕様のセマンティクスを明示的に表現したB"uchiaの構造を利用して, 所望の式を満たすための真理代入の順序を条件としたポリシーを学習する。
論文 参考訳(メタデータ) (2024-10-06T21:30:38Z) - Directed Exploration in Reinforcement Learning from Linear Temporal Logic [59.707408697394534]
リニア時間論理(LTL)は強化学習におけるタスク仕様のための強力な言語である。
合成された報酬信号は基本的に疎結合であり,探索が困難であることを示す。
我々は、仕様をさらに活用し、それに対応するリミット決定性B"uchi Automaton(LDBA)をマルコフ報酬プロセスとしてキャストすることで、よりよい探索を実現することができることを示す。
論文 参考訳(メタデータ) (2024-08-18T14:25:44Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Hypernetworks for Zero-shot Transfer in Reinforcement Learning [21.994654567458017]
Hypernetworksは、目に見えないさまざまなタスク条件で振る舞いを生成するように訓練されている。
この研究はメタRL、文脈RL、伝達学習に関連している。
提案手法は,マルチタスクおよびメタRLアプローチによるベースラインの大幅な改善を示す。
論文 参考訳(メタデータ) (2022-11-28T15:48:35Z) - Improving Multi-task Learning via Seeking Task-based Flat Regions [38.28600737969538]
MTL(Multi-Task Learning)は、ディープニューラルネットワークをトレーニングするための強力な学習パラダイムである。
MTLには、究極の勾配降下方向を導出するためにタスク勾配を操作することに焦点を当てた、新たな作業ラインがある。
単タスク学習におけるモデル一般化能力を向上するシャープネス認識最小化という,最近導入されたトレーニング手法を活用することを提案する。
論文 参考訳(メタデータ) (2022-11-24T17:19:30Z) - Efficient Meta Reinforcement Learning for Preference-based Fast
Adaptation [17.165083095799712]
本研究では,ループ内強化学習の文脈における少数ショット適応の問題について検討する。
そこで我々は,嗜好に基づくフィードバックによる迅速なポリシー適応を実現するメタRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-11-20T03:55:09Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。