論文の概要: Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models
- arxiv url: http://arxiv.org/abs/2603.10098v1
- Date: Tue, 10 Mar 2026 17:37:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.635226
- Title: Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models
- Title(参考訳): コードスペース対応 Oracle: 大規模言語モデルによる解釈可能なマルチエージェントポリシの生成
- Authors: Daniel Hennes, Zun Li, John Schultz, Marc Lanctot,
- Abstract要約: 深い強化学習のオラクルは、解釈、信頼、デバッグが難しいブラックボックスのニューラルネットワークポリシを生成します。
我々は、この課題に対処する新しいフレームワークであるCode-Space Response Oracles (CSRO)を紹介します。
本研究は,不透明なポリシーパラメータの最適化から解釈可能なアルゴリズム行動へ焦点を移す,マルチエージェント学習の新しい視点を示す。
- 参考スコア(独自算出の注目度): 8.649235365712004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in multi-agent reinforcement learning, particularly Policy-Space Response Oracles (PSRO), have enabled the computation of approximate game-theoretic equilibria in increasingly complex domains. However, these methods rely on deep reinforcement learning oracles that produce `black-box' neural network policies, making them difficult to interpret, trust or debug. We introduce Code-Space Response Oracles (CSRO), a novel framework that addresses this challenge by replacing RL oracles with Large Language Models (LLMs). CSRO reframes the best response computation as a code generation task, prompting an LLM to generate policies directly as human-readable code. This approach not only yields inherently interpretable policies but also leverages the LLM's pretrained knowledge to discover complex, human-like strategies. We explore multiple ways to construct and enhance an LLM-based oracle: zero-shot prompting, iterative refinement and \emph{AlphaEvolve}, a distributed LLM-based evolutionary system. We demonstrate that CSRO achieves performance competitive with baselines while producing a diverse set of explainable policies. Our work presents a new perspective on multi-agent learning, shifting the focus from optimizing opaque policy parameters to synthesizing interpretable algorithmic behavior.
- Abstract(参考訳): マルチエージェント強化学習の最近の進歩、特に政策空間応答オラクル(PSRO)は、ますます複雑な領域における近似ゲーム理論平衡の計算を可能にしている。
しかし、これらの手法は'ブラックボックス'ニューラルネットワークポリシーを生成する深層強化学習のオラクルに依存しており、解釈、信頼、デバッグが困難である。
我々は、LLオーラクルをLLM(Large Language Models)に置き換えることで、この問題に対処する新しいフレームワークであるCode-Space Response Oracles (CSRO)を紹介する。
CSROはコード生成タスクとして最高のレスポンス計算を再構成し、LCMはヒューマン可読コードとしてポリシーを直接生成する。
このアプローチは、本質的に解釈可能なポリシーを得るだけでなく、LLMの事前訓練された知識を活用して、複雑で人間的な戦略を発見する。
ゼロショットプロンプト,反復精製,および分散LLMベースの進化システムである \emph{AlphaEvolve} の構築と拡張について検討する。
CSROは、多種多様な説明可能なポリシーを作成しながら、ベースラインと競合する性能を実現することを実証する。
本研究は,不透明なポリシーパラメータの最適化から解釈可能なアルゴリズム行動の合成へと焦点を移す,マルチエージェント学習の新しい視点を示す。
関連論文リスト
- Policy-Conditioned Policies for Multi-Agent Task Solving [53.67744322553693]
本研究では,ポリシーを人間の解釈可能なソースコードとして表現することでギャップを埋めるパラダイムシフトを提案する。
本研究では,Large Language Models (LLM) を近似インタプリタとして利用することにより,学習問題を再構築する。
我々はこのプロセスを,ポリシーコードをテキスト勾配で最適化するアルゴリズムである TextitProgrammatic Iterated Best Response (PIBR) として定式化する。
論文 参考訳(メタデータ) (2025-12-24T07:42:10Z) - Enhancing Code LLMs with Reinforcement Learning in Code Generation: A Survey [14.942504483776432]
コード生成と最適化のための重要なテクニックとして強化学習(RL)が登場した。
本稿では,コード最適化と生成におけるRLの適用について,系統的な調査を行った。
論文 参考訳(メタデータ) (2024-12-29T06:15:41Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Nash Learning from Human Feedback [86.09617990412941]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。
我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。
ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文 参考訳(メタデータ) (2023-12-01T19:26:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。