論文の概要: Flexible Attention-Based Multi-Policy Fusion for Efficient Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2210.03729v2
- Date: Mon, 9 Oct 2023 18:17:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 16:11:17.839484
- Title: Flexible Attention-Based Multi-Policy Fusion for Efficient Deep
Reinforcement Learning
- Title(参考訳): フレキシブルアテンションに基づく多言語融合による高能率深層強化学習
- Authors: Zih-Yun Chiu, Yi-Lin Tuan, William Yang Wang, Michael C. Yip
- Abstract要約: 強化学習(RL)エージェントは、長い間、人間の学習の効率にアプローチしようとしてきた。
RLにおける以前の研究は、エージェントがサンプル効率を改善するために外部知識ポリシーを取り入れていた。
我々は,複数の知識ポリシーを融合させたRLパラダイムであるKGRL(Knowledge-Grounded RL)について述べる。
- 参考スコア(独自算出の注目度): 78.31888150539258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) agents have long sought to approach the
efficiency of human learning. Humans are great observers who can learn by
aggregating external knowledge from various sources, including observations
from others' policies of attempting a task. Prior studies in RL have
incorporated external knowledge policies to help agents improve sample
efficiency. However, it remains non-trivial to perform arbitrary combinations
and replacements of those policies, an essential feature for generalization and
transferability. In this work, we present Knowledge-Grounded RL (KGRL), an RL
paradigm fusing multiple knowledge policies and aiming for human-like
efficiency and flexibility. We propose a new actor architecture for KGRL,
Knowledge-Inclusive Attention Network (KIAN), which allows free knowledge
rearrangement due to embedding-based attentive action prediction. KIAN also
addresses entropy imbalance, a problem arising in maximum entropy KGRL that
hinders an agent from efficiently exploring the environment, through a new
design of policy distributions. The experimental results demonstrate that KIAN
outperforms alternative methods incorporating external knowledge policies and
achieves efficient and flexible learning. Our implementation is available at
https://github.com/Pascalson/KGRL.git
- Abstract(参考訳): 強化学習(rl)エージェントは長い間、人間学習の効率に近づこうとしてきた。
人間は様々な情報源から外部の知識を集約することで学習できる偉大なオブザーバーであり、例えばタスクを試みている人のポリシーからの観察も含む。
RLにおける以前の研究は、エージェントがサンプル効率を改善するために外部知識ポリシーを取り入れていた。
しかし、これらのポリシーの任意の組み合わせと置換を行うことは、一般化と伝達可能性に不可欠な特徴である。
本稿では,複数の知識ポリシーを融合させたRLパラダイムであるKGRL(Knowledge-Grounded RL)について述べる。
組込み型注意行動予測(embedd-based attentive action prediction)による知識の自由な再構成を可能にする,kian ( knowledge-inclusive attention network) のための新しいアクターアーキテクチャを提案する。
また、エントロピー不均衡(entropy imbalance)は最大エントロピーkgrlで発生し、政策分布の新しい設計を通じてエージェントが効率的に環境を探索することを妨げる問題である。
実験の結果,KIANは外部知識ポリシーを取り入れた代替手法よりも優れ,効率的かつ柔軟な学習を実現することが示された。
私たちの実装はhttps://github.com/pascalson/kgrl.gitで利用可能です。
関連論文リスト
- How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Hybrid Inverse Reinforcement Learning [34.793570631021005]
逆強化学習による模倣学習は 両刃剣である。
我々は、不要な探索を抑えるために、ハイブリッドRL(オンラインデータとエキスパートデータの混合に関するトレーニング)の使用を提案する。
モデルフリーとモデルベースハイブリッド逆RLアルゴリズムの両方を導出し、強力なポリシー性能を保証する。
論文 参考訳(メタデータ) (2024-02-13T23:29:09Z) - Renaissance Robot: Optimal Transport Policy Fusion for Learning Diverse
Skills [28.39150937658635]
最適輸送理論を用いた政策融合のためのポストホック手法を提案する。
これにより、新しいタスクを学習するためのニューラルネットワークポリシの初期化が改善される。
以上の結果から,専門知識を「ルネッサンスエージェント」に統合し,新たなスキルの学習を迅速に行うことが可能であることが示唆された。
論文 参考訳(メタデータ) (2022-07-03T08:15:41Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - A novel policy for pre-trained Deep Reinforcement Learning for Speech
Emotion Recognition [8.175197257598697]
Reinforcement Learning(RL)は、エージェントが環境と相互作用することによって学習する半教師付き学習パラダイムです。
ディープRLはAlphaGoのようなゲームで大成功を収めてきたが、音声感情認識(SER)のような挑戦的なタスクのためにその可能性を探ることはめったにない。
本稿では、SERに適した新しいポリシー「ゼタポリシー」を導入し、より高速な学習率を達成するために深部RLでの事前学習を適用する。
論文 参考訳(メタデータ) (2021-01-04T02:13:26Z) - Useful Policy Invariant Shaping from Arbitrary Advice [24.59807772487328]
RL研究の大きな課題は、少ないデータで学習する方法を見つけることである。
可能性に基づく報酬形成 (PBRS) は約束があるが、十分に定義されたポテンシャル関数の必要性によって制限される。
最近導入された動的電位ベースのアドバイス(DPBA)メソッドは、人間や他のエージェントからの任意のアドバイスを認めることで、この問題に対処する。
論文 参考訳(メタデータ) (2020-11-02T20:29:09Z) - Deep RL With Information Constrained Policies: Generalization in
Continuous Control [21.46148507577606]
情報フローに対する自然な制約は, 連続制御タスクにおいて, 人工エージェントに干渉する可能性があることを示す。
CLAC(Capacity-Limited Actor-Critic)アルゴリズムを実装した。
実験の結果、CLACは代替手法と比較して、トレーニング環境と修正テスト環境の一般化に改善をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-10-09T15:42:21Z) - Discovering Reinforcement Learning Algorithms [53.72358280495428]
強化学習アルゴリズムは、いくつかのルールの1つに従ってエージェントのパラメータを更新する。
本稿では,更新ルール全体を検出するメタラーニング手法を提案する。
これには、一連の環境と対話することで、"何を予測するか"(例えば、値関数)と"どのように学習するか"の両方が含まれている。
論文 参考訳(メタデータ) (2020-07-17T07:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。