論文の概要: LOQA: Learning with Opponent Q-Learning Awareness
- arxiv url: http://arxiv.org/abs/2405.01035v1
- Date: Thu, 2 May 2024 06:33:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-03 17:33:31.633505
- Title: LOQA: Learning with Opponent Q-Learning Awareness
- Title(参考訳): LOQA: 対向的なQ-Learning Awarenessによる学習
- Authors: Milad Aghajohari, Juan Agustin Duque, Tim Cooijmans, Aaron Courville,
- Abstract要約: 本稿では,エージェントの個々のユーティリティを最適化する分散型強化学習アルゴリズムであるLearning with Opponent Q-Learning Awareness (LOQA)を紹介する。
LOQAは、Iterated Prisoner's DilemmaやCoin Gameのようなベンチマークシナリオで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 1.1666234644810896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In various real-world scenarios, interactions among agents often resemble the dynamics of general-sum games, where each agent strives to optimize its own utility. Despite the ubiquitous relevance of such settings, decentralized machine learning algorithms have struggled to find equilibria that maximize individual utility while preserving social welfare. In this paper we introduce Learning with Opponent Q-Learning Awareness (LOQA), a novel, decentralized reinforcement learning algorithm tailored to optimizing an agent's individual utility while fostering cooperation among adversaries in partially competitive environments. LOQA assumes the opponent samples actions proportionally to their action-value function Q. Experimental results demonstrate the effectiveness of LOQA at achieving state-of-the-art performance in benchmark scenarios such as the Iterated Prisoner's Dilemma and the Coin Game. LOQA achieves these outcomes with a significantly reduced computational footprint, making it a promising approach for practical multi-agent applications.
- Abstract(参考訳): 現実世界の様々なシナリオにおいて、エージェント間の相互作用は、エージェントが自身のユーティリティを最適化しようとする一般的なサムゲームのダイナミクスによく似ている。
このような設定のユビキタスな関連性にもかかわらず、分散機械学習アルゴリズムは、社会的福祉を保ちながら個人の効用を最大化する均衡を見つけるのに苦労してきた。
本稿では,エージェントの個人利用を最適化すると同時に,部分的に競合する環境下での相手同士の協力を促進することを目的とした,新たな分散強化学習アルゴリズムであるLearning with Opponent Q-Learning Awareness(LOQA)を紹介する。
実験結果は、反復囚人ジレンマやコインゲームのようなベンチマークシナリオにおいて、最先端の性能を達成するためのLOQAの有効性を実証する。
LOQAは計算フットプリントを大幅に削減してこれらの結果を達成するため、実用的なマルチエージェントアプリケーションには有望なアプローチである。
関連論文リスト
- Mitigating Relative Over-Generalization in Multi-Agent Reinforcement Learning [11.988291170853806]
我々は,潜在的次の状態のサンプリングと評価を反復的に行うMaxMax Q-Learning (MMQ)を紹介した。
このアプローチは理想的な状態遷移の近似を洗練させ、協調エージェントの最適結合ポリシーとより密接に一致させる。
以上の結果から,MMQは既存のベースラインよりも優れており,コンバージェンスと試料効率が向上していることが明らかとなった。
論文 参考訳(メタデータ) (2024-11-17T15:00:39Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z) - Inverse Factorized Q-Learning for Cooperative Multi-agent Imitation
Learning [13.060023718506917]
模倣学習(英: mimicion learning, IL)は、協調型マルチエージェントシステムにおける実証から専門家の行動を模倣する学習の課題である。
本稿では,これらの課題に対処する新しいマルチエージェントILアルゴリズムを提案する。
本手法は,分散Q関数の集約に混在するネットワークを活用することで,集中学習を実現する。
論文 参考訳(メタデータ) (2023-10-10T17:11:20Z) - Credit-cognisant reinforcement learning for multi-agent cooperation [0.0]
エージェントは,その行動が環境および共同エージェントに与える影響を知覚することができる。
これらの経験を操り、それらに含まれる報酬を構成することで、すべてのエージェントが受け取る報酬を同一のアクションシーケンスに含めることで、独立した深層Q-ラーニングの性能を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2022-11-18T09:00:25Z) - Addressing the issue of stochastic environments and local
decision-making in multi-objective reinforcement learning [0.0]
多目的強化学習(MORL)は、従来の強化学習(RL)に基づく比較的新しい分野である。
この論文は、価値に基づくMORL Q-learningアルゴリズムが環境の最適ポリシーを学習する頻度に影響を与える要因に焦点を当てている。
論文 参考訳(メタデータ) (2022-11-16T04:56:42Z) - Multi-Agent Reinforcement Learning for Long-Term Network Resource
Allocation through Auction: a V2X Application [7.326507804995567]
我々は,自律エージェント間の分散意思決定として,移動エージェントの動的グループ(自動車など)からの計算タスクのオフロードを定式化する。
我々は、競争と協力のバランスをとることで、そのようなエージェントにプライベートとシステム目標の整合を動機付けるインタラクションメカニズムを設計する。
本稿では,部分的,遅延,ノイズの多い状態情報を用いて学習する,新しいマルチエージェントオンライン学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T10:29:06Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - On Information Asymmetry in Competitive Multi-Agent Reinforcement
Learning: Convergence and Optimality [78.76529463321374]
協調的でない2つのQ-ラーニングエージェントの相互作用システムについて検討する。
この情報非対称性は、集団学習の安定した結果をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-21T11:19:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。