論文の概要: Learning Individual Intrinsic Reward in Multi-Agent Reinforcement Learning via Incorporating Generalized Human Expertise
- arxiv url: http://arxiv.org/abs/2507.18867v1
- Date: Fri, 25 Jul 2025 00:59:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.787248
- Title: Learning Individual Intrinsic Reward in Multi-Agent Reinforcement Learning via Incorporating Generalized Human Expertise
- Title(参考訳): 一般知識を取り入れた多エージェント強化学習における個人固有の態度の学習
- Authors: Xuefei Wu, Xiao Yin, Yuanyang Zhu, Chunlin Chen,
- Abstract要約: マルチエージェント強化学習(MARL)の効率的な探索は、チーム報酬のみを受け取る場合の課題である。
この問題を緩和するための強力な方法は、エージェントを効率的な探索へと導くために、密集した個人報酬を作成することである。
本稿では,MARLアルゴリズムに人間の知識をエンドツーエンドで組み込む新しいフレームワーク LIGHT を提案する。
- 参考スコア(独自算出の注目度): 6.441011477647557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient exploration in multi-agent reinforcement learning (MARL) is a challenging problem when receiving only a team reward, especially in environments with sparse rewards. A powerful method to mitigate this issue involves crafting dense individual rewards to guide the agents toward efficient exploration. However, individual rewards generally rely on manually engineered shaping-reward functions that lack high-order intelligence, thus it behaves ineffectively than humans regarding learning and generalization in complex problems. To tackle these issues, we combine the above two paradigms and propose a novel framework, LIGHT (Learning Individual Intrinsic reward via Incorporating Generalized Human experTise), which can integrate human knowledge into MARL algorithms in an end-to-end manner. LIGHT guides each agent to avoid unnecessary exploration by considering both individual action distribution and human expertise preference distribution. Then, LIGHT designs individual intrinsic rewards for each agent based on actionable representational transformation relevant to Q-learning so that the agents align their action preferences with the human expertise while maximizing the joint action value. Experimental results demonstrate the superiority of our method over representative baselines regarding performance and better knowledge reusability across different sparse-reward tasks on challenging scenarios.
- Abstract(参考訳): マルチエージェント強化学習(MARL)の効率的な探索は、チーム報酬のみを受け取る場合、特に少ない報酬を持つ環境では難しい問題である。
この問題を緩和するための強力な方法は、エージェントを効率的な探索へと導くために、密集した個人報酬を作成することである。
しかし、個々の報酬は一般に、高次知能に欠ける手作業によるシェーピング・リワード関数に依存しており、複雑な問題における学習と一般化に関して人間よりも効果的に振る舞う。
これらの課題に対処するため、我々は上記の2つのパラダイムを組み合わせて、人間の知識を終末的な方法でMARLアルゴリズムに統合できるLIGHT(Learning Individual Intrinsic reward via Incorporating Generalized Human ExperTise)を提案する。
LIGHTは、個々の行動分布と人間の専門的嗜好分布の両方を考慮することで、不要な探索を避けるよう各エージェントに誘導する。
そこでLIGHTは、Q-ラーニングに関連する行動表現変換に基づいて、各エージェント固有の報酬を個別に設計し、エージェントが協調行動価値を最大化しつつ、その行動嗜好を人間の専門知識と整合させる。
実験結果から,課題シナリオにおけるスパース・リワードタスク間の性能および知識再利用性に関する代表的ベースラインよりも,本手法の方が優れていることが示された。
関連論文リスト
- Deep Reinforcement Learning Agents are not even close to Human Intelligence [25.836584192349907]
深部強化学習(RL)エージェントは、様々なタスクにおいて印象的な結果を得るが、ゼロショット適応能力は欠如している。
我々は、アーケード学習環境のタスクバリエーションのセットであるHackAtariを紹介する。
人間とは対照的に、RLエージェントは、トレーニングタスクのより単純なバージョンに対して、体系的に大きなパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2025-05-27T20:21:46Z) - Effective Reward Specification in Deep Reinforcement Learning [2.28438857884398]
不適切な報酬仕様は、不整合エージェントの振る舞いと非効率な学習をもたらす。
本論文では,効果的な報酬仕様戦略に関する文献を概説する。
深層強化学習におけるサンプル効率とアライメントの問題に対処するオリジナルコントリビューションを提案する。
論文 参考訳(メタデータ) (2024-12-10T04:22:11Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILe(Reinforced Learning)は、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - Beyond Joint Demonstrations: Personalized Expert Guidance for Efficient Multi-Agent Reinforcement Learning [54.40927310957792]
異種チーム内の各エージェントを個別にカスタマイズした、個人化された専門家によるデモンストレーションという新しい概念を導入する。
これらのデモンストレーションは、単独エージェントの行動と、各エージェントが協調的な要素を含まない個人的目標を達成する方法にのみ関係している。
本稿では、個人化された専門家によるデモンストレーションをガイダンスとして選択的に活用し、エージェントが協力することを学ぶためのアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-13T20:11:20Z) - Inverse Reinforcement Learning with Sub-optimal Experts [56.553106680769474]
与えられた専門家の集合と互換性のある報酬関数のクラスの理論的性質について検討する。
以上の結果から,複数の準最適専門家の存在が,相反する報酬の集合を著しく減少させる可能性が示唆された。
我々は,最適なエージェントの1つに十分近い準最適専門家のパフォーマンスレベルが最適である場合に,最小限の最適化を行う一様サンプリングアルゴリズムを解析する。
論文 参考訳(メタデータ) (2024-01-08T12:39:25Z) - Collaborative Training of Heterogeneous Reinforcement Learning Agents in
Environments with Sparse Rewards: What and When to Share? [7.489793155793319]
本研究は,本質的なモチベーションを通じて得られた情報と,より効率的な探索と学習の高速化を目的とした情報を組み合わせることに焦点を当てる。
計算コストの少ない協調的なフレームワークが知識を共有することなく独立した学習プロセスより優れていることを示す。
論文 参考訳(メタデータ) (2022-02-24T16:15:51Z) - Open-Ended Learning Leads to Generally Capable Agents [12.079718607356178]
環境領域内のタスクの宇宙を定義し、この広大な空間をまたいだエージェントを訓練する能力を示す。
結果として生じる空間は、エージェントがもたらす課題に関して非常に多様であり、エージェントの学習の進捗を測定することさえも、オープンな研究課題である。
オープンエンド学習プロセスの構築により,エージェントが学習を止めないようなトレーニングタスク分布や訓練目標を動的に変化させることで,新しい行動の一貫性のある学習が可能になることを示す。
論文 参考訳(メタデータ) (2021-07-27T13:30:07Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。