論文の概要: IReCa: Intrinsic Reward-enhanced Context-aware Reinforcement Learning for Human-AI Coordination
- arxiv url: http://arxiv.org/abs/2408.07877v2
- Date: Tue, 27 Aug 2024 22:55:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 20:18:52.309861
- Title: IReCa: Intrinsic Reward-enhanced Context-aware Reinforcement Learning for Human-AI Coordination
- Title(参考訳): IReCa:人間とAIの協調のためのコンテキスト認識強化学習
- Authors: Xin Hao, Bahareh Nakisa, Mohmmad Naim Rastgoo, Richard Dazeley,
- Abstract要約: 人間とAIの調整シナリオでは、人間のエージェントは、AIエージェントのエージェントと比べて著しく疎く予測不可能な非対称な振る舞いを示す。
本稿では、これらの課題に対処するために、固有のReward-enhanced Context-aware (IReCa)強化学習(RL)アルゴリズムを提案する。
我々のIReCa RLアルゴリズムは、蓄積した報酬を約20%増加させ、収束に必要なエポックを最先端のベースラインと比較して約67%削減することができる。
- 参考スコア(独自算出の注目度): 3.207202660032374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In human-AI coordination scenarios, human agents usually exhibit asymmetric behaviors that are significantly sparse and unpredictable compared to those of AI agents. These characteristics introduce two primary challenges to human-AI coordination: the effectiveness of obtaining sparse rewards and the efficiency of training the AI agents. To tackle these challenges, we propose an Intrinsic Reward-enhanced Context-aware (IReCa) reinforcement learning (RL) algorithm, which leverages intrinsic rewards to facilitate the acquisition of sparse rewards and utilizes environmental context to enhance training efficiency. Our IReCa RL algorithm introduces three unique features: (i) it encourages the exploration of sparse rewards by incorporating intrinsic rewards that supplement traditional extrinsic rewards from the environment; (ii) it improves the acquisition of sparse rewards by prioritizing the corresponding sparse state-action pairs; and (iii) it enhances the training efficiency by optimizing the exploration and exploitation through innovative context-aware weights of extrinsic and intrinsic rewards. Extensive simulations executed in the Overcooked layouts demonstrate that our IReCa RL algorithm can increase the accumulated rewards by approximately 20% and reduce the epochs required for convergence by approximately 67% compared to state-of-the-art baselines.
- Abstract(参考訳): 人間とAIの調整シナリオでは、人間のエージェントは通常、AIエージェントのエージェントと比べて著しく疎く予測不可能な非対称な振る舞いを示す。
これらの特徴は、スパース報酬を得る効果とAIエージェントを訓練する効率の2つの主要な課題をもたらす。
これらの課題に対処するため、本研究では、スパース報酬の獲得を容易にするために固有の報酬を利用する、学習効率を高めるために環境コンテキストを利用する、固有Reward-enhanced Context-aware(IReCa)強化学習(RL)アルゴリズムを提案する。
我々のIReCa RLアルゴリズムには3つの特徴がある。
一 環境からの内因的報酬を補う内因的報酬を組み込むことにより、疎外報酬の探索を奨励すること。
(二)当該スパース状態-作用対を優先することによりスパース報酬の取得を改善し、
第三に、外因性及び内因性報酬の革新的文脈を考慮した重み付けにより、探索と搾取を最適化することにより、訓練効率を向上させること。
オーバークッキングレイアウトで実行される広範囲なシミュレーションにより、我々のIReCa RLアルゴリズムは、蓄積した報酬を約20%増加させ、収束に必要なエポックを最先端のベースラインと比較して約67%削減できることを示した。
関連論文リスト
- Beyond Simple Sum of Delayed Rewards: Non-Markovian Reward Modeling for Reinforcement Learning [44.770495418026734]
強化学習(Reinforcement Learning, RL)は、報酬信号から学習することで、エージェントに様々なスキルを習得する権限を与える。
伝統的な手法では、マルコフ報酬の根底にある存在を仮定し、観測された遅延報酬は単にインスタンスレベルの報酬の和である。
本稿では,特殊なインシーケンスアテンション機構を備えた複合遅延逆変換器(CoDeTr)を提案する。
論文 参考訳(メタデータ) (2024-10-26T13:12:27Z) - PreND: Enhancing Intrinsic Motivation in Reinforcement Learning through Pre-trained Network Distillation [2.6647096862213884]
強化学習における本質的モチベーションを高めるための新しいアプローチであるプレトレーニングネットワーク蒸留(Pre-trained Network Distillation, PreND)を導入する。
PreNDは、事前訓練された表現モデルをターゲットネットワークと予測ネットワークの両方に組み込み、より有意義で安定した本質的な報酬をもたらす。
我々は,Atariドメインの実験において,PreNDがランダムネットワーク蒸留(RND)を著しく上回ることを示した。
論文 参考訳(メタデータ) (2024-10-02T16:56:03Z) - Beyond Human Preferences: Exploring Reinforcement Learning Trajectory Evaluation and Improvement through LLMs [12.572869123617783]
強化学習(Reinforcement Learning, RL)は、複雑なゲームタスクにおけるポリシートラジェクトリを評価する上での課題である。
PbRLは、人間の嗜好を重要な報酬信号として活用する先駆的なフレームワークである。
LLM4PG という LLM 対応自動選好生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-28T04:21:24Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z) - A State Augmentation based approach to Reinforcement Learning from Human
Preferences [20.13307800821161]
優先に基づく強化学習は、クエリされたトラジェクトリペアのバイナリフィードバックを利用することで、この問題を解決しようとする。
本稿では,エージェントの報酬モデルが堅牢である状態拡張手法を提案する。
論文 参考訳(メタデータ) (2023-02-17T07:10:50Z) - Automatic Intrinsic Reward Shaping for Exploration in Deep Reinforcement
Learning [55.2080971216584]
本稿では、強化学習(RL)における探索を強化するため、知的かつ適応的に高品質な固有報酬を提供する自動固有リワード整形法を提案する。
我々は,多様な固有報酬手法の効率的かつ信頼性の高い実装を実現するために,固有報酬ツールキットを開発した。
論文 参考訳(メタデータ) (2023-01-26T01:06:46Z) - Distributional Reward Estimation for Effective Multi-Agent Deep
Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。
本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。
DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文 参考訳(メタデータ) (2022-10-14T08:31:45Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - Reinforcement Learning through Active Inference [62.997667081978825]
アクティブ推論のアイデアが従来の強化学習アプローチをどのように強化するかを示す。
我々は、将来望まれる自由エネルギーという、意思決定のための新しい目標を開発し、実装する。
得られたアルゴリズムが探索および利用に成功し、また、スパース、ウェル形状、報酬のないいくつかの挑戦的RLベンチマークにおいて頑健な性能を達成することを実証した。
論文 参考訳(メタデータ) (2020-02-28T10:28:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。