論文の概要: BCR-DRL: Behavior- and Context-aware Reward for Deep Reinforcement Learning in Human-AI Coordination
- arxiv url: http://arxiv.org/abs/2408.07877v3
- Date: Sun, 19 Jan 2025 10:45:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:17:50.388949
- Title: BCR-DRL: Behavior- and Context-aware Reward for Deep Reinforcement Learning in Human-AI Coordination
- Title(参考訳): BCR-DRL:人間-AI協調における深層強化学習のための行動・文脈認識リワード
- Authors: Xin Hao, Bahareh Nakisa, Mohmmad Naim Rastgoo, Richard Dazeley, Gaoyang Pang,
- Abstract要約: 深層強化学習(DRL)は、AIエージェントをトレーニングし、人間のパートナーと協調するための強力なフレームワークを提供する。
DRLは人間とAIの協調において2つの重要な課題に直面している。
本稿では,DRLの探索と活用を最適化する革新的行動認識報酬(BCR)を提案する。
- 参考スコア(独自算出の注目度): 4.365063638680399
- License:
- Abstract: Deep reinforcement Learning (DRL) offers a powerful framework for training AI agents to coordinate with human partners. However, DRL faces two critical challenges in human-AI coordination (HAIC): sparse rewards and unpredictable human behaviors. These challenges significantly limit DRL to identify effective coordination policies, due to its impaired capability of optimizing exploration and exploitation. To address these limitations, we propose an innovative behavior- and context-aware reward (BCR) for DRL, which optimizes exploration and exploitation by leveraging human behaviors and contextual information in HAIC. Our BCR consists of two components: (i)~Novel dual intrinsic rewards to enhance exploration. This scheme composes an AI self-motivated intrinsic reward and a human-motivated intrinsic reward, which are designed to increase the capture of sparse rewards by a logarithmic-based strategy; and (ii)~New context-aware weights for the designed rewards to improve exploitation. This mechanism helps the AI agent prioritize actions that better coordinate with the human partner by utilizing contextual information that can reflect the evolution of learning in HAIC. Extensive simulations in the Overcooked environment demonstrate that our approach can increase the cumulative sparse rewards by approximately 20% and reduce the convergence time by about 67% compared to state-of-the-art baselines.
- Abstract(参考訳): 深層強化学習(DRL)は、AIエージェントをトレーニングし、人間のパートナーと協調するための強力なフレームワークを提供する。
しかし、DRLは人間とAIの協調(HAIC)において2つの重要な課題に直面している。
これらの課題は、DRLが探索と搾取を最適化する能力に障害があるため、効果的な調整政策を特定することを大幅に制限した。
これらの制約に対処するために,人間の行動とコンテキスト情報を活用することで,探索と活用を最適化するDRLのための革新的な行動認識報酬(BCR)を提案する。
私たちのBCRは2つのコンポーネントで構成されています。
(i)~探索を強化するための二重本質的な報酬。
このスキームは、対数的戦略によるスパース報酬の獲得を促進するために、AIの自己動機的内在的報酬と人間動機的内在的報酬を構成する。
(ii)~ エクスプロイトを改善するためにデザインされた報酬に対する新しいコンテキスト対応の重み。
このメカニズムは、AIエージェントが、HAICにおける学習の進化を反映したコンテキスト情報を利用することによって、人間のパートナーとのより優れたコーディネートを行うアクションを優先順位付けするのに役立つ。
オーバークッキング環境における過大なシミュレーションにより, 提案手法は, 累積スパース報酬を約20%増加させ, 収束時間を最先端ベースラインに比べて約67%低減できることを示した。
関連論文リスト
- Reusing Embeddings: Reproducible Reward Model Research in Large Language Model Alignment without GPUs [58.18140409409302]
大規模言語モデル (LLM) は強化学習 (RL) を通じて構造化タスクに大きく進歩した。
チャットボットやコンテンツ生成といった幅広い分野にRLを適用することは、ユニークな課題だ。
埋め込み型報酬モデルを用いた既存の報酬モデルアンサンブル研究の再現事例について述べる。
論文 参考訳(メタデータ) (2025-02-04T19:37:35Z) - A novel multi-agent dynamic portfolio optimization learning system based on hierarchical deep reinforcement learning [4.495144308458951]
DRLエージェントをアクター批判アルゴリズムと深度関数近似器を用いて訓練すると,DRLエージェントのリスク調整による収益性の改善が重要でないシナリオが生じる可能性がある。
本研究では,新しい多エージェント深層強化学習(L)アルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-12T15:00:02Z) - Rationality based Innate-Values-driven Reinforcement Learning [1.8220718426493654]
本来の価値はエージェントの本質的なモチベーションを表しており、それはエージェントの本来の関心や目標を追求する好みを反映している。
これはAIエージェントの固有値駆動(IV)行動を記述するための優れたモデルである。
本稿では,階層型強化学習モデルを提案する。
論文 参考訳(メタデータ) (2024-11-14T03:28:02Z) - Beyond Human Preferences: Exploring Reinforcement Learning Trajectory Evaluation and Improvement through LLMs [12.572869123617783]
強化学習(Reinforcement Learning, RL)は、複雑なゲームタスクにおけるポリシートラジェクトリを評価する上での課題である。
PbRLは、人間の嗜好を重要な報酬信号として活用する先駆的なフレームワークである。
LLM4PG という LLM 対応自動選好生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-28T04:21:24Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - Reinforcement Learning through Active Inference [62.997667081978825]
アクティブ推論のアイデアが従来の強化学習アプローチをどのように強化するかを示す。
我々は、将来望まれる自由エネルギーという、意思決定のための新しい目標を開発し、実装する。
得られたアルゴリズムが探索および利用に成功し、また、スパース、ウェル形状、報酬のないいくつかの挑戦的RLベンチマークにおいて頑健な性能を達成することを実証した。
論文 参考訳(メタデータ) (2020-02-28T10:28:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。