論文の概要: GARL: Game-Theoretic Reinforcement Learning for Multi-Agent Strategic Prioritisation
- arxiv url: http://arxiv.org/abs/2606.05002v1
- Date: Wed, 03 Jun 2026 15:19:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.855793
- Title: GARL: Game-Theoretic Reinforcement Learning for Multi-Agent Strategic Prioritisation
- Title(参考訳): GARL:マルチエージェント戦略優先順位付けのためのゲーム理論強化学習
- Authors: Yuxiao Ye, Yiwen Zhang, Huiyuan Xie, Yuqin Huang, Zhiyuan Liu,
- Abstract要約: マルチエージェント戦略優先順位付けのためのGAme-theoretic Reinforcement Learningフレームワークを提案する。
我々は、GARLを紛争における問題ランキングでインスタンス化し、そこでは、法的手続きにおいて中核的な問題を優先することを目的としている。
- 参考スコア(独自算出の注目度): 18.453396876510347
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: LLM-based multi-agent systems are increasingly used for strategic decision-making tasks. In such settings, performance depends not only on individual model capabilities, but also on the policies by which agents interact and adapt. Multi-agent reinforcement learning can optimise these interaction policies, but its reward design often remains task-specific and weakly grounded in interaction structure. To address this gap, we propose GARL, a GAme-theoretic Reinforcement Learning framework for multi-agent strategic prioritisation. GARL formalises strategic prioritisation as a two-stage game: competing agents first allocate strategic resources over a shared candidate set, and a higher-level arbiter then produces the final ranking. The resulting game-theoretic utilities are converted into role-specific reinforcement signals, allowing policy optimisation to be guided by structured interaction. We instantiate GARL on issues-in-dispute ranking, where the goal is to prioritise core issues in legal proceedings. Experiments show that GARL improves ranking performance, enables small open-source LLMs to become competitive with a strong closed-source LLM under the same candidate-ranking setting, and yields gains in legal-domain competence and broader strategic decision-making. Overall, GARL demonstrates how game-theoretic interaction structure can be turned into reinforcement-learning objectives, providing a principled approach to policy optimisation in multi-agent strategic prioritisation.
- Abstract(参考訳): LLMベースのマルチエージェントシステムは、戦略的意思決定タスクにますます利用されている。
このような設定では、パフォーマンスは個々のモデル機能だけでなく、エージェントが相互作用し適応するポリシーにも依存します。
マルチエージェント強化学習はこれらの相互作用ポリシーを最適化することができるが、その報酬設計はしばしばタスク固有であり、相互作用構造に弱く根ざされている。
このギャップに対処するために,マルチエージェント戦略優先順位付けのためのGAme-theoretic Reinforcement LearningフレームワークであるGARLを提案する。
GARLは戦略的優先順位付けを2段階のゲームとして定式化している: 競合するエージェントはまず共有候補セットに戦略資源を割り当て、上位のアービターが最終ランキングを生成する。
結果として得られるゲーム理論ユーティリティはロール固有の強化信号に変換され、構造化された相互作用によってポリシー最適化が導かれる。
我々は、GARLを紛争における問題ランキングでインスタンス化し、そこでは、法的手続きにおいて中核的な問題を優先することを目的としている。
実験により、GARLはランキング性能を向上し、小規模なオープンソースLLMが、同じ候補条件下で強力なクローズドソースLLMと競合し、法的領域の能力とより広範な戦略的意思決定において利益を得ることを示す。
GARLは、ゲーム理論の相互作用構造を強化学習の目的に変換する方法を示し、マルチエージェント戦略優先順位付けにおけるポリシー最適化の原則的アプローチを提供する。
関連論文リスト
- Strat-Reasoner: Reinforcing Strategic Reasoning of LLMs in Multi-Agent Games [21.17910455412377]
大規模言語モデルは、最終結果が全てのエージェントのジョイント戦略に依存するマルチエージェントゲームで苦労する。
既存の単エージェント強化学習アプローチとそのマルチエージェント拡張は、これらの課題に対処することができない。
マルチエージェントゲームにおけるLSMの戦略的推論能力を向上させる新しいRLベースのフレームワークであるStrat-Reasonerを提案する。
論文 参考訳(メタデータ) (2026-05-06T13:35:14Z) - EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning [69.55982246413046]
戦略的推論のための明示的なポリシー最適化(EPO)を提案する。
我々は,マルチターン強化学習(RL)による戦略的推論モデルを訓練し,プロセス報酬と反復的な自己プレイを活用する。
本研究は, EPOに出現する様々な協調的推論機構と, 新規戦略の創出における有効性を明らかにするものである。
論文 参考訳(メタデータ) (2025-02-18T03:15:55Z) - Iterated Reasoning with Mutual Information in Cooperative and Byzantine
Decentralized Teaming [0.0]
我々は,政策グラディエント(PG)の下での最適化において,エージェントの方針がチームメイトの方針に準じることが,本質的に相互情報(MI)の下限を最大化することを示す。
我々の手法であるInfoPGは、創発的協調行動の学習におけるベースラインを上回り、分散協調型MARLタスクにおける最先端の課題を設定します。
論文 参考訳(メタデータ) (2022-01-20T22:54:32Z) - HAVEN: Hierarchical Cooperative Multi-Agent Reinforcement Learning with
Dual Coordination Mechanism [17.993973801986677]
多エージェント強化学習はしばしば、多数のエージェントによって引き起こされる指数関数的に大きな作用空間に悩まされる。
完全協調型マルチエージェント問題に対する階層的強化学習に基づく新しい値分解フレームワークHAVENを提案する。
論文 参考訳(メタデータ) (2021-10-14T10:43:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。