Fugu-MT 論文翻訳(概要): BCR-DRL: Behavior- and Context-aware Reward for Deep Reinforcement Learning in Human-AI Coordination

論文の概要: BCR-DRL: Behavior- and Context-aware Reward for Deep Reinforcement Learning in Human-AI Coordination

arxiv url: http://arxiv.org/abs/2408.07877v4
Date: Fri, 07 Feb 2025 00:03:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-10 16:25:55.462408
Title: BCR-DRL: Behavior- and Context-aware Reward for Deep Reinforcement Learning in Human-AI Coordination
Title（参考訳）: BCR-DRL:人間-AI協調における深層強化学習のための行動・文脈認識リワード
Authors: Xin Hao, Bahareh Nakisa, Mohmmad Naim Rastgoo, Richard Dazeley, Gaoyang Pang,
Abstract要約: 深層強化学習(DRL)は、AIエージェントをトレーニングし、人間のパートナーと協調するための強力なフレームワークを提供する。 DRLは人間とAIの協調において2つの重要な課題に直面している。本稿では,DRLの探索と活用を最適化する革新的行動認識報酬(BCR)を提案する。提案手法は, 累積スパース報酬を約20%増加させ, 収束時間を最先端のベースラインと比較して約67%減少させることができる。
参考スコア（独自算出の注目度）: 4.365063638680399
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep reinforcement Learning (DRL) offers a powerful framework for training AI agents to coordinate with human partners. However, DRL faces two critical challenges in human-AI coordination (HAIC): sparse rewards and unpredictable human behaviors. These challenges significantly limit DRL to identify effective coordination policies, due to its impaired capability of optimizing exploration and exploitation. To address these limitations, we propose an innovative behavior- and context-aware reward (BCR) for DRL, which optimizes exploration and exploitation by leveraging human behaviors and contextual information in HAIC. Our BCR consists of two components: (i)~A novel dual intrinsic rewarding scheme to enhance exploration. This scheme composes an AI self-motivated intrinsic reward and a human-motivated intrinsic reward, which are designed to increase the capture of sparse rewards by a logarithmic-based strategy; and (ii)~A new context-aware weighting mechanism for the designed rewards to improve exploitation. This mechanism helps the AI agent prioritize actions that better coordinate with the human partner by utilizing contextual information that can reflect the evolution of learning in HAIC. Extensive simulations in the Overcooked environment demonstrate that our approach can increase the cumulative sparse rewards by approximately 20% and reduce the convergence time by about 67% compared to state-of-the-art baselines.
Abstract（参考訳）: 深層強化学習(DRL)は、AIエージェントをトレーニングし、人間のパートナーと協調するための強力なフレームワークを提供する。しかし、DRLは人間とAIの協調(HAIC)において2つの重要な課題に直面している。これらの課題は、DRLが探索と搾取を最適化する能力に障害があるため、効果的な調整政策を特定することを大幅に制限した。これらの制約に対処するために,人間の行動とコンテキスト情報を活用することで,探索と活用を最適化するDRLのための革新的な行動認識報酬(BCR)を提案する。私たちのBCRは2つのコンポーネントで構成されています。 (i)~探究力を高めるための新しい二重本質的な報奨スキーム。このスキームは、対数的戦略によるスパース報酬の獲得を促進するために、AIの自己動機的内在的報酬と人間動機的内在的報酬を構成する。 (ii)~ エクスプロイトを改善するためにデザインされた報酬に対する新しいコンテキスト対応重み付け機構。このメカニズムは、AIエージェントが、HAICにおける学習の進化を反映したコンテキスト情報を利用することによって、人間のパートナーとのより優れたコーディネートを行うアクションを優先順位付けするのに役立つ。オーバークッキング環境における過大なシミュレーションにより, 提案手法は, 累積スパース報酬を約20%増加させ, 収束時間を最先端ベースラインに比べて約67%低減できることを示した。

関連論文リスト

Intrinsic-Motivation Multi-Robot Social Formation Navigation with Coordinated Exploration [7.50564221243905]
協調探索型マルチロボットRLアルゴリズムを提案する。その中核となるコンポーネントは、政策保守主義を一括して緩和するために設計された自己学習固有の報酬メカニズムである。ソーシャルフォーメーションナビゲーションベンチマークの実証的な結果は,提案アルゴリズムの優れた性能を示すものである。
論文参考訳（メタデータ） (2025-12-15T13:03:08Z)
D2 Actor Critic: Diffusion Actor Meets Distributional Critic [4.669386607943427]
D2ACは,オンライン上で表現的拡散政策を効果的に訓練するために設計された新しいモデルフリー強化学習(RL)アルゴリズムである。その中核は政策改善の目標であり、典型的な政策勾配の高分散と時間経過によるバックプロパゲーションの複雑さを避ける。この安定した学習プロセスは、我々の第2の貢献によって、ロバストな分布的批判によって可能となり、分布的RLとクリップされた二重Q-ラーニングを融合して設計する。得られたアルゴリズムは非常に効果的で、ヒューマノイド、ドッグ、シャドウハンドを含む18のハードRLタスクのベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-10-03T20:47:24Z)
Aligning Humans and Robots via Reinforcement Learning from Implicit Human Feedback [26.585985828583304]
非侵襲脳波(EEG)信号を利用した暗黙のフィードバック(RLIHF)フレームワークによる新しい強化学習を提案する。我々は,Kinova Gen2ロボットアームを用いて,MuJoCo物理エンジン上に構築したシミュレーション環境におけるアプローチを評価した。結果は、デコードされた脳波フィードバックで訓練されたエージェントが、密集した手作業による報酬で訓練されたエージェントに匹敵するパフォーマンスを達成することを示している。
論文参考訳（メタデータ） (2025-07-17T14:35:12Z)
SEEA-R1: Tree-Structured Reinforcement Fine-Tuning for Self-Evolving Embodied Agents [58.174206358223415]
自己進化型エボダイドエージェント(SeEA-R1)は、自己進化型エボダイドエージェント用に設計された最初の強化微細調整フレームワークである。本研究は,SEEA-R1が自律適応と報酬駆動型自己進化をサポートすることを示す。
論文参考訳（メタデータ） (2025-06-26T18:00:07Z)
Enhancing Rating-Based Reinforcement Learning to Effectively Leverage Feedback from Large Vision-Language Models [22.10168313140081]
本稿では,AIフィードバックから報酬関数を学習する評価に基づく強化学習手法ERL-VLMを紹介する。 ERL-VLMは、個々の軌道の絶対評価のために大きな視覚言語モデルをクエリし、より表現力のあるフィードバックを可能にする。 ERL-VLM は既存の VLM ベースの報酬生成手法よりも大幅に優れていることを示す。
論文参考訳（メタデータ） (2025-06-15T12:05:08Z)
Navigate the Unknown: Enhancing LLM Reasoning with Intrinsic Motivation Guided Exploration [33.807927649100805]
大規模言語モデル(LLM)の推論能力向上のための重要な手法として強化学習(RL)が登場した。 RLアプローチは、スパース結果に基づく報酬への依存と、探索のインセンティブを高めるための不十分なメカニズムにより、重要な制限に直面している。固有モチベーション guidEd ExploratioN meThOd foR LLM Reasoning (i-MENTOR) を提案する。 i-MENTORは、トークンレベルの戦略におけるバイアスを軽減する軌道対応探索報酬、大きなアクション空間における探索と利用を安定化するための動的報酬スケーリング、そして、維持する有利な報酬実装の3つの重要なイノベーションを紹介している。
論文参考訳（メタデータ） (2025-05-23T08:30:28Z)
LAMeTA: Intent-Aware Agentic Network Optimization via a Large AI Model-Empowered Two-Stage Approach [68.198383438396]
本稿では,大規模AIモデル(LAM)を用いたエージェントネットワーク最適化のための2段階アプローチであるLAMeTAを提案する。まず,インテント指向の知識蒸留(IoKD)を提案する。第2に、E-LAMをポリシーベースのDRLフレームワークに統合した共生強化学習(SRL)を開発する。
論文参考訳（メタデータ） (2025-05-18T05:59:16Z)
Interactive Double Deep Q-network: Integrating Human Interventions and Evaluative Predictions in Reinforcement Learning of Autonomous Driving [16.379623042562415]
本研究では、強化学習(RL)を強化するHuman-in-the-Loop(HITL)アプローチであるInteractive Double Deep Q-network(iDDQN)を導入する。提案したiDDQN法は,Q値更新方程式を修正して,人間とエージェントのアクションを統合することで,政策開発のための協調的アプローチを確立する。シミュレーションされた自律走行シナリオにおける実証的な結果は、iDDQNが確立されたアプローチより優れていることを示している。
論文参考訳（メタデータ） (2025-04-28T05:25:18Z)
Improving Human-AI Coordination through Adversarial Training and Generative Models [36.54154192505703]
新たな人間に一般化するには、人間の行動の多様性を捉えたデータに関する訓練が必要である。敵の訓練は、そのようなデータを検索し、エージェントが堅牢であることを保証するための手段の1つである。本稿では、事前学習された生成モデルを組み合わせて、有効な協調エージェントポリシーをシミュレートする自己サボタージュを克服するための新しい戦略を提案する。
論文参考訳（メタデータ） (2025-04-21T21:53:00Z)
On the Importance of Reward Design in Reinforcement Learning-based Dynamic Algorithm Configuration: A Case Study on OneMax with (1+($λ$,$λ$))-GA [7.924445204088514]
本稿では,RLエージェントによる環境探索の促進を目的とした報奨形成機構を提案する。我々の研究は、$(lambda,lambda)$-GAを動的に設定する際のRLの機能を示しているが、RLエージェントのスケーラビリティにおける報酬形成の利点も確認している。
論文参考訳（メタデータ） (2025-02-27T16:53:28Z)
Reusing Embeddings: Reproducible Reward Model Research in Large Language Model Alignment without GPUs [58.18140409409302]
大規模言語モデル (LLM) は強化学習 (RL) を通じて構造化タスクに大きく進歩した。チャットボットやコンテンツ生成といった幅広い分野にRLを適用することは、ユニークな課題だ。埋め込み型報酬モデルを用いた既存の報酬モデルアンサンブル研究の再現事例について述べる。
論文参考訳（メタデータ） (2025-02-04T19:37:35Z)
Rationality based Innate-Values-driven Reinforcement Learning [1.8220718426493654]
本来の価値はエージェントの本質的なモチベーションを表しており、それはエージェントの本来の関心や目標を追求する好みを反映している。これはAIエージェントの固有値駆動(IV)行動を記述するための優れたモデルである。本稿では,階層型強化学習モデルを提案する。
論文参考訳（メタデータ） (2024-11-14T03:28:02Z)
Beyond Simple Sum of Delayed Rewards: Non-Markovian Reward Modeling for Reinforcement Learning [44.770495418026734]
強化学習(Reinforcement Learning, RL)は、報酬信号から学習することで、エージェントに様々なスキルを習得する権限を与える。伝統的な手法では、マルコフ報酬の根底にある存在を仮定し、観測された遅延報酬は単にインスタンスレベルの報酬の和である。本稿では,特殊なインシーケンスアテンション機構を備えた複合遅延逆変換器(CoDeTr)を提案する。
論文参考訳（メタデータ） (2024-10-26T13:12:27Z)
PreND: Enhancing Intrinsic Motivation in Reinforcement Learning through Pre-trained Network Distillation [2.6647096862213884]
強化学習における本質的モチベーションを高めるための新しいアプローチであるプレトレーニングネットワーク蒸留(Pre-trained Network Distillation, PreND)を導入する。 PreNDは、事前訓練された表現モデルをターゲットネットワークと予測ネットワークの両方に組み込み、より有意義で安定した本質的な報酬をもたらす。我々は,Atariドメインの実験において,PreNDがランダムネットワーク蒸留(RND)を著しく上回ることを示した。
論文参考訳（メタデータ） (2024-10-02T16:56:03Z)
Beyond Human Preferences: Exploring Reinforcement Learning Trajectory Evaluation and Improvement through LLMs [12.572869123617783]
強化学習(Reinforcement Learning, RL)は、複雑なゲームタスクにおけるポリシートラジェクトリを評価する上での課題である。 PbRLは、人間の嗜好を重要な報酬信号として活用する先駆的なフレームワークである。 LLM4PG という LLM 対応自動選好生成フレームワークを提案する。
論文参考訳（メタデータ） (2024-06-28T04:21:24Z)
REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文参考訳（メタデータ） (2023-12-22T04:56:37Z)
Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文参考訳（メタデータ） (2023-11-16T09:07:34Z)
Provably Efficient Iterated CVaR Reinforcement Learning with Function Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文参考訳（メタデータ） (2023-07-06T08:14:54Z)
A State Augmentation based approach to Reinforcement Learning from Human Preferences [20.13307800821161]
優先に基づく強化学習は、クエリされたトラジェクトリペアのバイナリフィードバックを利用することで、この問題を解決しようとする。本稿では,エージェントの報酬モデルが堅牢である状態拡張手法を提案する。
論文参考訳（メタデータ） (2023-02-17T07:10:50Z)
Automatic Intrinsic Reward Shaping for Exploration in Deep Reinforcement Learning [55.2080971216584]
本稿では、強化学習(RL)における探索を強化するため、知的かつ適応的に高品質な固有報酬を提供する自動固有リワード整形法を提案する。我々は,多様な固有報酬手法の効率的かつ信頼性の高い実装を実現するために,固有報酬ツールキットを開発した。
論文参考訳（メタデータ） (2023-01-26T01:06:46Z)
Distributional Reward Estimation for Effective Multi-Agent Deep Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。 DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文参考訳（メタデータ） (2022-10-14T08:31:45Z)
Reward Uncertainty for Exploration in Preference-based Reinforcement Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文参考訳（メタデータ） (2022-05-24T23:22:10Z)
Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。 VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文参考訳（メタデータ） (2021-07-27T16:39:45Z)
Combining Pessimism with Optimism for Robust and Efficient Model-Based Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-18T16:50:17Z)
Reinforcement Learning through Active Inference [62.997667081978825]
アクティブ推論のアイデアが従来の強化学習アプローチをどのように強化するかを示す。我々は、将来望まれる自由エネルギーという、意思決定のための新しい目標を開発し、実装する。得られたアルゴリズムが探索および利用に成功し、また、スパース、ウェル形状、報酬のないいくつかの挑戦的RLベンチマークにおいて頑健な性能を達成することを実証した。
論文参考訳（メタデータ） (2020-02-28T10:28:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。