論文の概要: Convergence of a Human-in-the-Loop Policy-Gradient Algorithm With
Eligibility Trace Under Reward, Policy, and Advantage Feedback
- arxiv url: http://arxiv.org/abs/2109.07054v1
- Date: Wed, 15 Sep 2021 02:29:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-17 02:34:23.816452
- Title: Convergence of a Human-in-the-Loop Policy-Gradient Algorithm With
Eligibility Trace Under Reward, Policy, and Advantage Feedback
- Title(参考訳): Reward, Policy, Advantage Feedback 下での可視性トレースを用いたHuman-in-the-Loop Policy-Gradientアルゴリズムの収束性
- Authors: Ishaan Shah, David Halpern, Kavosh Asadi and Michael L. Littman
- Abstract要約: この研究は、3種類のフィードバック・ポリシー・フィードバック、報酬・フィードバック、利点・フィードバックの下で、Convergent Actor-Critic by Humans(COACH)アルゴリズムを分析します。
これら3つのフィードバックタイプに対してCOACHは準最適に振る舞うことができる。
提案するCOACHの変種であるエピソディックCOACH(E-COACH)は,これら3つの型に対して収束を証明している。
- 参考スコア(独自算出の注目度): 20.089829229666908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fluid human-agent communication is essential for the future of
human-in-the-loop reinforcement learning. An agent must respond appropriately
to feedback from its human trainer even before they have significant experience
working together. Therefore, it is important that learning agents respond well
to various feedback schemes human trainers are likely to provide. This work
analyzes the COnvergent Actor-Critic by Humans (COACH) algorithm under three
different types of feedback-policy feedback, reward feedback, and advantage
feedback. For these three feedback types, we find that COACH can behave
sub-optimally. We propose a variant of COACH, episodic COACH (E-COACH), which
we prove converges for all three types. We compare our COACH variant with two
other reinforcement-learning algorithms: Q-learning and TAMER.
- Abstract(参考訳): 流動型人間-エージェントコミュニケーションは,人間-ループ間強化学習の将来に不可欠である。
エージェントは、重要な経験を持つ前に、人間のトレーナーからのフィードバックに適切に応答する必要がある。
したがって、学習エージェントは、訓練者が提供しそうな様々なフィードバックスキームによく対応することが重要である。
この研究は、3種類のフィードバック・ポリシー・フィードバック、報酬・フィードバック、利点・フィードバックの下で、Convergent Actor-Critic by Humans(COACH)アルゴリズムを分析します。
これら3つのフィードバックタイプに対して、COACHは準最適に振る舞うことができる。
提案するCOACHの変種であるエピソディックCOACH(E-COACH)は,これら3つの型に対して収束を証明している。
当社のCOACH変種と他の強化学習アルゴリズムであるQ-learningとTAMERを比較した。
関連論文リスト
- Mapping out the Space of Human Feedback for Reinforcement Learning: A Conceptual Framework [13.949126295663328]
我々は、対話型学習シナリオにおける人間のフィードバックの共通理解を開発することにより、機械学習と人間とコンピュータの相互作用のギャップを埋める。
そこで我々は,9つの重要な次元に基づいて,人的フィードバックから報酬に基づく学習を行うためのフィードバックタイプ分類を導入した。
フィードバックを表現できる人間の能力と、フィードバックから学習するエージェントの能力に影響を及ぼす、人間のフィードバックの質の指標を7つ同定する。
論文 参考訳(メタデータ) (2024-11-18T17:40:42Z) - Dual Active Learning for Reinforcement Learning from Human Feedback [13.732678966515781]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデルと人間の好みを合わせるために広く応用されている。
人間のフィードバックは高価で時間を要するため、人間の教師がラベルを付けるための高品質な会話データを集めることが不可欠である。
本稿では、オフライン強化学習(RL)を用いてアライメント問題を定式化する。
論文 参考訳(メタデータ) (2024-10-03T14:09:58Z) - CANDERE-COACH: Reinforcement Learning from Noisy Feedback [12.232688822099325]
CANDERE-COACHアルゴリズムは、非最適教師によるノイズフィードバックから学習することができる。
本稿では,教師のフィードバックの最大40%が誤りであった場合,RLエージェントが学習を成功させるためのノイズフィルタリング機構を提案する。
論文 参考訳(メタデータ) (2024-09-23T20:14:12Z) - Robustifying a Policy in Multi-Agent RL with Diverse Cooperative Behaviors and Adversarial Style Sampling for Assistive Tasks [51.00472376469131]
多様な介護者対応を訓練することで、ロバストな介護者の方針を学習する枠組みを提案する。
一般的な深層RL法で訓練されたポリシーは、他のエージェントのポリシーの変更に対して脆弱であることを示す。
論文 参考訳(メタデータ) (2024-03-01T08:15:18Z) - Reinforcement Learning with Human Feedback: Learning Dynamic Choices via
Pessimism [91.52263068880484]
人間のフィードバックを用いたオフライン強化学習(RLHF)について検討する。
我々は、人間の選択によって引き起こされる一連の軌道から、人間の根底にある報酬とMDPの最適政策を学習することを目指している。
RLHFは、大きな状態空間だが人間のフィードバックが限られていること、人間の決定の有界な合理性、政治外の分散シフトなど、さまざまな理由から挑戦されている。
論文 参考訳(メタデータ) (2023-05-29T01:18:39Z) - AlpacaFarm: A Simulation Framework for Methods that Learn from Human
Feedback [90.22885814577134]
大きな言語モデル(LLM)は、その強い命令追従能力のために広く採用されている。
低コストでフィードバックから学習するための研究と開発を可能にするシミュレータを開発した。
実際の10k対のフィードバックに基づいて11のモデルをトレーニングし、評価し、AlpacaFarmでトレーニングされたモデルのランキングが、人間のデータでトレーニングされたモデルのランキングと一致することを示す。
論文 参考訳(メタデータ) (2023-05-22T17:55:50Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - Accelerating Reinforcement Learning Agent with EEG-based Implicit Human
Feedback [10.138798960466222]
人間のフィードバックによる強化学習(RL)エージェントは、学習のさまざまな側面を劇的に改善することができる。
従来の方法では、人間の観察者が明示的に入力をし、RLエージェントの学習プロセスのループで人間を負担する必要があった。
脳波による人間の内因性反応を、エラー関連電位(ErrP)の形で暗黙の(そして自然な)フィードバックとして捉えることを検討する。
論文 参考訳(メタデータ) (2020-06-30T03:13:37Z) - Facial Feedback for Reinforcement Learning: A Case Study and Offline
Analysis Using the TAMER Framework [51.237191651923666]
訓練者の表情からエージェント学習の可能性について,評価フィードバックとして解釈することで検討した。
設計したCNN-RNNモデルを用いて,学習者に対して表情とコンペティションの使用を指示することで,肯定的および否定的なフィードバックを推定する精度を向上させることができることを示す。
シミュレーション実験の結果,表情に基づく予測フィードバックのみから学習できることが示唆された。
論文 参考訳(メタデータ) (2020-01-23T17:50:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。