論文の概要: Opinion-Guided Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2405.17287v2
- Date: Sat, 3 Aug 2024 17:05:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 20:48:25.323608
- Title: Opinion-Guided Reinforcement Learning
- Title(参考訳): オピニオンガイドによる強化学習
- Authors: Kyanna Dagenais, Istvan David,
- Abstract要約: 本稿では,強化学習エージェントを意見を通じて指導する手法を提案する。
我々は、異なるレベルの不確実性において、人工的な(オークル)と人間のアドバイザーで評価する。
以上の結果から, たとえ不確実であっても, 強化学習エージェントの性能は向上することが示唆された。
- 参考スコア(独自算出の注目度): 0.46040036610482665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human guidance is often desired in reinforcement learning to improve the performance of the learning agent. However, human insights are often mere opinions and educated guesses rather than well-formulated arguments. While opinions are subject to uncertainty, e.g., due to partial informedness or ignorance about a problem, they also emerge earlier than hard evidence can be produced. Thus, guiding reinforcement learning agents by way of opinions offers the potential for more performant learning processes, but comes with the challenge of modeling and managing opinions in a formal way. In this article, we present a method to guide reinforcement learning agents through opinions. To this end, we provide an end-to-end method to model and manage advisors' opinions. To assess the utility of the approach, we evaluate it with synthetic (oracle) and human advisors, at different levels of uncertainty, and under multiple advice strategies. Our results indicate that opinions, even if uncertain, improve the performance of reinforcement learning agents, resulting in higher rewards, more efficient exploration, and a better reinforced policy. Although we demonstrate our approach through a two-dimensional topological running example, our approach is applicable to complex problems with higher dimensions as well.
- Abstract(参考訳): 人的指導は、学習エージェントの性能を向上させるために強化学習においてしばしば望まれる。
しかし、人間の洞察は、よく定式化された議論よりも単なる意見や教育的な推測であることが多い。
意見は、例えば、問題に関する部分的な情報や無知のために不確実性にさらされるが、ハードエビデンスが発生するよりも早く現れる。
このように、意見による強化学習エージェントの指導は、より優れた学習プロセスの可能性を提供するが、形式的な方法で意見のモデリングと管理の課題が伴う。
本稿では,強化学習エージェントを意見を通じて指導する手法を提案する。
この目的のために、アドバイザーの意見をモデル化し、管理するためのエンドツーエンドの手法を提供する。
提案手法の有用性を評価するため,複数のアドバイス戦略の下で,人工的(オークル)と人的アドバイザーを用いて,さまざまな不確実性レベルにおいて評価を行った。
結果から, たとえ不確実であっても, 強化学習エージェントの性能は向上し, より高い報奨率, より効率的な探索, より優れた強化政策が得られたことが示唆された。
2次元トポロジカルランニングの例を通して、我々のアプローチを実証するが、我々のアプローチはより高次元の複雑な問題にも適用できる。
関連論文リスト
- Learn Beyond The Answer: Training Language Models with Reflection for Mathematical Reasoning [59.98430756337374]
教師付き微調整により、様々な数学的推論タスクにおける言語モデルの問題解決能力が向上する。
本研究は,手前のトレーニング問題をより深く理解することを目的とした,新しい技術を紹介する。
本稿では,各トレーニングインスタンスに問題反映を埋め込む手法であるリフレクティブ拡張を提案する。
論文 参考訳(メタデータ) (2024-06-17T19:42:22Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Explainable Action Advising for Multi-Agent Reinforcement Learning [32.49380192781649]
アクションアドバイザリング(Action Advising)とは、教師-学生パラダイムに基づく強化学習のための知識伝達技術である。
本稿では,教師がアクションアドバイスと関連する説明を提示し,アクションが選択された理由を説明するための説明可能なアクションアドバイスを紹介する。
これにより、学生は学んだことを自己認識し、一般化アドバイスを可能にし、サンプル効率と学習性能を向上させることができる。
論文 参考訳(メタデータ) (2022-11-15T04:15:03Z) - Teachable Reinforcement Learning via Advice Distillation [161.43457947665073]
外部教師が提供した構造化アドバイスから学習する「教育可能な」意思決定システムに基づく対話型学習のための新しい指導パラダイムを提案する。
我々は、アドバイスから学ぶエージェントが、標準的な強化学習アルゴリズムよりも人的監督力の少ない新しいスキルを習得できることを示す。
論文 参考訳(メタデータ) (2022-03-19T03:22:57Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - Improving Human Sequential Decision-Making with Reinforcement Learning [29.334511328067777]
トレースデータから"ベストプラクティス"を抽出できる新しい機械学習アルゴリズムを設計する。
我々のアルゴリズムは、労働者の行動と最適な政策によって取られた行動のギャップを最もうまく埋めるヒントを選択する。
実験の結果,提案アルゴリズムが生成したチップは人体の性能を著しく向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-08-19T02:57:58Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Action Advising with Advice Imitation in Deep Reinforcement Learning [0.5185131234265025]
行動助言は、教師と学生のパラダイムに基づいて構築されたピアツーピアの知識交換技術です。
本稿では,学生エージェントが以前取得したアドバイスを模倣して,調査方針で直接再利用する手法を提案する。
論文 参考訳(メタデータ) (2021-04-17T04:24:04Z) - Tracking the Race Between Deep Reinforcement Learning and Imitation
Learning -- Extended Version [0.0]
我々は、強化学習領域であるRacetrackからベンチマーク計画問題を考える。
本研究では,深い教師付き学習,特に模倣学習のパフォーマンスを,レーストラックモデルの強化学習と比較する。
論文 参考訳(メタデータ) (2020-08-03T10:31:44Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。