論文の概要: Influencing Reinforcement Learning through Natural Language Guidance
- arxiv url: http://arxiv.org/abs/2104.01506v1
- Date: Sun, 4 Apr 2021 00:23:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-06 14:52:44.421365
- Title: Influencing Reinforcement Learning through Natural Language Guidance
- Title(参考訳): 自然言語指導による強化学習への影響
- Authors: Tasmia Tasrin, Md Sultan AL Nahian, Habarakadage Perera and Brent
Harrison
- Abstract要約: 強化学習エージェントによりリッチなフィードバック信号を提供するために,自然言語のアドバイスをどのように利用できるかを検討する。
通常、政策形成は、エージェントが目標を達成する方法についてより深く学ぶのを助けるために、人間のフィードバックポリシーを採用する。
この場合、このヒューマンフィードバックポリシーを自然言語のアドバイスに基づいて生成されたポリシーに置き換えます。
- 参考スコア(独自算出の注目度): 4.227540427595989
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interactive reinforcement learning agents use human feedback or instruction
to help them learn in complex environments. Often, this feedback comes in the
form of a discrete signal that is either positive or negative. While
informative, this information can be difficult to generalize on its own. In
this work, we explore how natural language advice can be used to provide a
richer feedback signal to a reinforcement learning agent by extending policy
shaping, a well-known Interactive reinforcement learning technique. Usually
policy shaping employs a human feedback policy to help an agent to learn more
about how to achieve its goal. In our case, we replace this human feedback
policy with policy generated based on natural language advice. We aim to
inspect if the generated natural language reasoning provides support to a deep
reinforcement learning agent to decide its actions successfully in any given
environment. So, we design our model with three networks: first one is the
experience driven, next is the advice generator and third one is the advice
driven. While the experience driven reinforcement learning agent chooses its
actions being influenced by the environmental reward, the advice driven neural
network with generated feedback by the advice generator for any new state
selects its actions to assist the reinforcement learning agent to better policy
shaping.
- Abstract(参考訳): 対話型強化学習エージェントは、人間のフィードバックや指示を使って、複雑な環境での学習を支援する。
多くの場合、このフィードバックは正または負の離散信号の形で得られる。
情報的ではあるが、この情報はそれ自体で一般化することは困難である。
本研究では,対話型強化学習手法であるポリシシェーピングを拡張し,強化学習エージェントに対して,より豊かなフィードバック信号を提供するために自然言語アドバイスをどのように利用できるかを検討する。
通常、政策形成は、エージェントが目標を達成する方法についてより深く学ぶのを助けるために、人間のフィードバックポリシーを採用する。
本稿では、このヒューマンフィードバックポリシーを、自然言語のアドバイスに基づくポリシーに置き換える。
生成した自然言語推論が深層強化学習エージェントにサポートを提供し、任意の環境においてその動作を成功させるかどうかを調べることを目的とする。
ひとつはエクスペリエンス駆動型,もうひとつはアドバイス生成型,もうひとつはアドバイス駆動型です。
経験駆動強化学習エージェントは、環境報酬の影響を受ける行動を選択するが、アドバイス駆動ニューラルネットワークは、新たな状態に対するアドバイスジェネレータによるフィードバックを発生させ、強化学習エージェントのポリシー形成を支援する行動を選択する。
関連論文リスト
- Few-shot Dialogue Strategy Learning for Motivational Interviewing via Inductive Reasoning [21.078032718892498]
本稿では,ユーザに対して肯定的なライフスタイル変化を取り入れるための対話システム構築の課題について考察する。
専門家によるデモンストレーションから,自然言語帰納規則の形で会話戦略を学習し,適用可能なフレームワークであるDIITを提案する。
論文 参考訳(メタデータ) (2024-03-23T06:03:37Z) - LiFT: Unsupervised Reinforcement Learning with Foundation Models as
Teachers [59.69716962256727]
本研究では,人間からのフィードバックを伴わずに意味論的に意味のある行動を取得するための強化学習エージェントを指導する枠組みを提案する。
本フレームワークでは,大規模言語モデルから学習環境に根ざしたタスク命令を受信する。
我々は,オープンエンドのMineDojo環境において,意味的に意味のあるスキルを学習できることを実証した。
論文 参考訳(メタデータ) (2023-12-14T14:07:41Z) - Is Feedback All You Need? Leveraging Natural Language Feedback in
Goal-Conditioned Reinforcement Learning [54.31495290436766]
我々はBabyAIを拡張し、環境力学と目標条件の成功から言語フィードバックを自動的に生成する。
我々は、この付加信号を利用するために、決定変換器アーキテクチャを変更する。
言語フィードバックによるトレーニングは, エージェントの一般化性能を向上させること, あるいは, 目標記述に代えて行うことが確認された。
論文 参考訳(メタデータ) (2023-12-07T22:33:34Z) - Teachable Reinforcement Learning via Advice Distillation [161.43457947665073]
外部教師が提供した構造化アドバイスから学習する「教育可能な」意思決定システムに基づく対話型学習のための新しい指導パラダイムを提案する。
我々は、アドバイスから学ぶエージェントが、標準的な強化学習アルゴリズムよりも人的監督力の少ない新しいスキルを習得できることを示す。
論文 参考訳(メタデータ) (2022-03-19T03:22:57Z) - Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。
我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文 参考訳(メタデータ) (2021-05-03T13:14:25Z) - Generative Inverse Deep Reinforcement Learning for Online Recommendation [62.09946317831129]
オンラインレコメンデーションのための新しい逆強化学習手法InvRecを提案する。
InvRecは、オンラインレコメンデーションのために、ユーザの行動から報酬関数を自動的に抽出する。
論文 参考訳(メタデータ) (2020-11-04T12:12:25Z) - Knowledge-guided Deep Reinforcement Learning for Interactive
Recommendation [49.32287384774351]
インタラクティブレコメンデーションは、アイテムとユーザ間の動的インタラクションから学び、応答性と精度を達成することを目的としている。
本稿では,知識指導型深層強化学習を提案する。
論文 参考訳(メタデータ) (2020-04-17T05:26:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。