論文の概要: Knowledge-Grounded Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2210.03729v1
- Date: Fri, 7 Oct 2022 17:56:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 13:35:17.990244
- Title: Knowledge-Grounded Reinforcement Learning
- Title(参考訳): 知識接地強化学習
- Authors: Zih-Yun Chiu, Yi-Lin Tuan, William Yang Wang, Michael C. Yip
- Abstract要約: 我々は、エージェントが外部ガイドラインに従い、独自のポリシーを開発することを学習する、という形式的な定義でKGRL(Knowledge-Grounded RL)の概念を導入する。
本稿では,学習可能な内部方針と外部知識のいずれかに対応する,埋め込み型アテンション機構を備えた新しいアクターモデルを提案する。
我々のKGRLエージェントはより試料効率が高く、一般化可能であることが示され、柔軟に再構成可能な知識埋め込みと解釈可能な振る舞いを持つ。
- 参考スコア(独自算出の注目度): 86.24523938942814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Receiving knowledge, abiding by laws, and being aware of regulations are
common behaviors in human society. Bearing in mind that reinforcement learning
(RL) algorithms benefit from mimicking humanity, in this work, we propose that
an RL agent can act on external guidance in both its learning process and model
deployment, making the agent more socially acceptable. We introduce the
concept, Knowledge-Grounded RL (KGRL), with a formal definition that an agent
learns to follow external guidelines and develop its own policy. Moving towards
the goal of KGRL, we propose a novel actor model with an embedding-based
attention mechanism that can attend to either a learnable internal policy or
external knowledge. The proposed method is orthogonal to training algorithms,
and the external knowledge can be flexibly recomposed, rearranged, and reused
in both training and inference stages. Through experiments on tasks with
discrete and continuous action space, our KGRL agent is shown to be more sample
efficient and generalizable, and it has flexibly rearrangeable knowledge
embeddings and interpretable behaviors.
- Abstract(参考訳): 知識を受け取り、法律を遵守し、規則に気付くことは、人間社会において共通の行動である。
強化学習(RL)アルゴリズムが人間性を模倣する恩恵を受けることを念頭に置いて,本研究では,RLエージェントが学習プロセスとモデル展開の両方において外部ガイダンスに作用し,エージェントがより社会的に受け入れられるようにすることを提案する。
我々は,エージェントが外部ガイドラインに従うことを学び,独自の方針を策定することを学ぶための公式な定義として,知識基盤型rl(kgrl)という概念を導入する。
kgrlの目標に向けて,学習可能な内部方針と外部知識のいずれにも対応可能な組込み型注意機構を備えた新たなアクタモデルを提案する。
提案手法はトレーニングアルゴリズムと直交し,外部知識を柔軟に再構成し,再配置し,学習段階と推論段階の両方で再利用することができる。
離散的かつ連続的な行動空間を持つタスクの実験を通して、我々のKGRLエージェントはよりサンプリング効率が高く、一般化可能であることが示され、柔軟に再構成可能な知識埋め込みと解釈可能な振る舞いを持つ。
関連論文リスト
- How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Hybrid Inverse Reinforcement Learning [34.793570631021005]
逆強化学習による模倣学習は 両刃剣である。
我々は、不要な探索を抑えるために、ハイブリッドRL(オンラインデータとエキスパートデータの混合に関するトレーニング)の使用を提案する。
モデルフリーとモデルベースハイブリッド逆RLアルゴリズムの両方を導出し、強力なポリシー性能を保証する。
論文 参考訳(メタデータ) (2024-02-13T23:29:09Z) - Renaissance Robot: Optimal Transport Policy Fusion for Learning Diverse
Skills [28.39150937658635]
最適輸送理論を用いた政策融合のためのポストホック手法を提案する。
これにより、新しいタスクを学習するためのニューラルネットワークポリシの初期化が改善される。
以上の結果から,専門知識を「ルネッサンスエージェント」に統合し,新たなスキルの学習を迅速に行うことが可能であることが示唆された。
論文 参考訳(メタデータ) (2022-07-03T08:15:41Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - A novel policy for pre-trained Deep Reinforcement Learning for Speech
Emotion Recognition [8.175197257598697]
Reinforcement Learning(RL)は、エージェントが環境と相互作用することによって学習する半教師付き学習パラダイムです。
ディープRLはAlphaGoのようなゲームで大成功を収めてきたが、音声感情認識(SER)のような挑戦的なタスクのためにその可能性を探ることはめったにない。
本稿では、SERに適した新しいポリシー「ゼタポリシー」を導入し、より高速な学習率を達成するために深部RLでの事前学習を適用する。
論文 参考訳(メタデータ) (2021-01-04T02:13:26Z) - Useful Policy Invariant Shaping from Arbitrary Advice [24.59807772487328]
RL研究の大きな課題は、少ないデータで学習する方法を見つけることである。
可能性に基づく報酬形成 (PBRS) は約束があるが、十分に定義されたポテンシャル関数の必要性によって制限される。
最近導入された動的電位ベースのアドバイス(DPBA)メソッドは、人間や他のエージェントからの任意のアドバイスを認めることで、この問題に対処する。
論文 参考訳(メタデータ) (2020-11-02T20:29:09Z) - Deep RL With Information Constrained Policies: Generalization in
Continuous Control [21.46148507577606]
情報フローに対する自然な制約は, 連続制御タスクにおいて, 人工エージェントに干渉する可能性があることを示す。
CLAC(Capacity-Limited Actor-Critic)アルゴリズムを実装した。
実験の結果、CLACは代替手法と比較して、トレーニング環境と修正テスト環境の一般化に改善をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-10-09T15:42:21Z) - Discovering Reinforcement Learning Algorithms [53.72358280495428]
強化学習アルゴリズムは、いくつかのルールの1つに従ってエージェントのパラメータを更新する。
本稿では,更新ルール全体を検出するメタラーニング手法を提案する。
これには、一連の環境と対話することで、"何を予測するか"(例えば、値関数)と"どのように学習するか"の両方が含まれている。
論文 参考訳(メタデータ) (2020-07-17T07:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。