論文の概要: Reinforcement learning with human advice: a survey
- arxiv url: http://arxiv.org/abs/2005.11016v2
- Date: Tue, 24 Nov 2020 09:02:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 09:16:07.648449
- Title: Reinforcement learning with human advice: a survey
- Title(参考訳): ヒューマンアドバイスによる強化学習に関する調査
- Authors: Anis Najar and Mohamed Chetouani
- Abstract要約: まず,学習エージェントに提供可能な様々なアドバイス形態の分類法を提案する。
次に、その意味が事前に決定されていない場合に、アドバイスの解釈に使用できる方法を述べる。
- 参考スコア(独自算出の注目度): 2.66512000865131
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we provide an overview of the existing methods for integrating
human advice into a Reinforcement Learning process. We first propose a taxonomy
of the different forms of advice that can be provided to a learning agent. We
then describe the methods that can be used for interpreting advice when its
meaning is not determined beforehand. Finally, we review different approaches
for integrating advice into the learning process.
- Abstract(参考訳): 本稿では,人間のアドバイスを強化学習プロセスに統合するための既存の手法の概要について述べる。
まず,学習エージェントに提供可能な様々なアドバイス形態の分類法を提案する。
次に,その意味が事前に決定されない場合のアドバイスの解釈に使用できる手法について述べる。
最後に、アドバイスを学習プロセスに統合するための様々なアプローチについてレビューする。
関連論文リスト
- Opinion-Guided Reinforcement Learning [0.46040036610482665]
本稿では,強化学習エージェントを意見を通じて指導する手法を提案する。
我々は、異なるレベルの不確実性において、人工的な(オークル)と人間のアドバイザーで評価する。
以上の結果から, たとえ不確実であっても, 強化学習エージェントの性能は向上することが示唆された。
論文 参考訳(メタデータ) (2024-05-27T15:52:27Z) - LiFT: Unsupervised Reinforcement Learning with Foundation Models as
Teachers [59.69716962256727]
本研究では,人間からのフィードバックを伴わずに意味論的に意味のある行動を取得するための強化学習エージェントを指導する枠組みを提案する。
本フレームワークでは,大規模言語モデルから学習環境に根ざしたタスク命令を受信する。
我々は,オープンエンドのMineDojo環境において,意味的に意味のあるスキルを学習できることを実証した。
論文 参考訳(メタデータ) (2023-12-14T14:07:41Z) - Advice Conformance Verification by Reinforcement Learning agents for
Human-in-the-Loop [17.042179951736262]
我々は MuJoCo のヒューマノイド環境における良いアドバイスシナリオと悪いアドバイスシナリオの2例について検討した。
提案手法は,適応性検証問題の解法として解釈可能な手段を提供することができることを示す。
論文 参考訳(メタデータ) (2022-10-07T10:56:28Z) - Teachable Reinforcement Learning via Advice Distillation [161.43457947665073]
外部教師が提供した構造化アドバイスから学習する「教育可能な」意思決定システムに基づく対話型学習のための新しい指導パラダイムを提案する。
我々は、アドバイスから学ぶエージェントが、標準的な強化学習アルゴリズムよりも人的監督力の少ない新しいスキルを習得できることを示す。
論文 参考訳(メタデータ) (2022-03-19T03:22:57Z) - Measuring "Why" in Recommender Systems: a Comprehensive Survey on the
Evaluation of Explainable Recommendation [87.82664566721917]
この調査は、IJCAI、AAAI、TheWebConf、Recsys、UMAP、IUIといったトップレベルのカンファレンスから100以上の論文に基づいています。
論文 参考訳(メタデータ) (2022-02-14T02:58:55Z) - Action Advising with Advice Imitation in Deep Reinforcement Learning [0.5185131234265025]
行動助言は、教師と学生のパラダイムに基づいて構築されたピアツーピアの知識交換技術です。
本稿では,学生エージェントが以前取得したアドバイスを模倣して,調査方針で直接再利用する手法を提案する。
論文 参考訳(メタデータ) (2021-04-17T04:24:04Z) - KnowledgeCheckR: Intelligent Techniques for Counteracting Forgetting [52.623349754076024]
KnowledgeCheckRに統合された推奨アプローチの概要を提供します。
その例としては,将来的に繰り返される学習内容の識別を支援するユーティリティベースのレコメンデーション,セッションベースのレコメンデーションを実装するための協調フィルタリングアプローチ,インテリジェントな質問応答を支援するコンテントベースのレコメンデーションなどがある。
論文 参考訳(メタデータ) (2021-02-15T20:06:28Z) - Human Engagement Providing Evaluative and Informative Advice for
Interactive Reinforcement Learning [2.5799044614524664]
この研究は、評価的または情報的という2つのアプローチのどちらが人間にとって好ましい指導的アプローチであるかを答えることに焦点を当てている。
結果は、ユーザーにより正確なアドバイスを提供し、学習者エージェントを長く支援し、エピソード毎により多くのアドバイスを提供することを示す。
論文 参考訳(メタデータ) (2020-09-21T02:14:02Z) - Knowledge Transfer via Pre-training for Recommendation: A Review and
Prospect [89.91745908462417]
実験による推薦システムに対する事前学習の利点を示す。
事前学習を伴うレコメンデータシステムの今後の研究に向けて,いくつかの将来的な方向性について論じる。
論文 参考訳(メタデータ) (2020-09-19T13:06:27Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。