論文の概要: Sample-Efficient Policy Space Response Oracles with Joint Experience Best Response
- arxiv url: http://arxiv.org/abs/2602.06599v1
- Date: Fri, 06 Feb 2026 10:52:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.363532
- Title: Sample-Efficient Policy Space Response Oracles with Joint Experience Best Response
- Title(参考訳): 共同エクスペリエンスのベストレスポンスを備えたサンプル効率のよいポリシー空間応答Oracle
- Authors: Ariyan Bighashdel, Thiago D. Simão, Frans A. Oliehoek,
- Abstract要約: ポリシー空間対応 Oracles (PSRO) は、近似ベストレスポンス (BR) で制限されたゲームを反復的に拡張することで、これらの問題に対処する。
我々は、PSROのドロップイン修正であるJoint Experience Best Response (JBR)を導入し、現在のメタストラテジープロファイルの下で1回だけトラジェクトリを収集し、このジョイントデータセットを再利用して、すべてのエージェントに対するBRを同時に計算する。
- 参考スコア(独自算出の注目度): 17.571420402590185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent reinforcement learning (MARL) offers a scalable alternative to exact game-theoretic analysis but suffers from non-stationarity and the need to maintain diverse populations of strategies that capture non-transitive interactions. Policy Space Response Oracles (PSRO) address these issues by iteratively expanding a restricted game with approximate best responses (BRs), yet per-agent BR training makes it prohibitively expensive in many-agent or simulator-expensive settings. We introduce Joint Experience Best Response (JBR), a drop-in modification to PSRO that collects trajectories once under the current meta-strategy profile and reuses this joint dataset to compute BRs for all agents simultaneously. This amortizes environment interaction and improves the sample efficiency of best-response computation. Because JBR converts BR computation into an offline RL problem, we propose three remedies for distribution-shift bias: (i) Conservative JBR with safe policy improvement, (ii) Exploration-Augmented JBR that perturbs data collection and admits theoretical guarantees, and (iii) Hybrid BR that interleaves JBR with periodic independent BR updates. Across benchmark multi-agent environments, Exploration-Augmented JBR achieves the best accuracy-efficiency trade-off, while Hybrid BR attains near-PSRO performance at a fraction of the sample cost. Overall, JBR makes PSRO substantially more practical for large-scale strategic learning while preserving equilibrium robustness.
- Abstract(参考訳): マルチエージェント強化学習(MARL)は、正確なゲーム理論解析に代わるスケーラブルな代替手段を提供するが、非定常性に悩まされ、非推移的相互作用を捉える多様な戦略の集団を維持する必要がある。
ポリシー空間対応 Oracles (PSRO) は、制限されたゲームを、近似ベストレスポンス (BR) で反復的に拡張することで、これらの問題に対処している。
我々は、PSROのドロップイン修正であるJoint Experience Best Response (JBR)を導入し、現在のメタストラテジープロファイルの下で1回だけトラジェクトリを収集し、このジョイントデータセットを再利用して、すべてのエージェントに対するBRを同時に計算する。
これにより環境相互作用が改善し、ベストレスポンス計算のサンプル効率が向上する。
JBRはBR計算をオフラインのRL問題に変換するため、分布シフトバイアスの3つの対策を提案する。
一 安全な政策改善を伴う保守的JBR
二 データ収集を妨害し、理論的保証を認める探索強化JBR
三 周期的な独立BR更新でJBRをインターリーブするハイブリッドBR。
ベンチマークによるマルチエージェント環境全体にわたって、Exploration-Augmented JBRは最良の精度と効率のトレードオフを実現し、Hybrid BRはサンプルコストのごく一部でPSROに近い性能を得る。
全体として、JBRは、平衡ロバスト性を保ちながら、PSROを大規模戦略学習に実質的に実用的にする。
関連論文リスト
- ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking [84.07076200941474]
ArenaRLは、ポイントワイドスカラースコアからグループ内相対ランクにシフトする強化学習パラダイムである。
我々は,グループ内対角アリーナを構築し,安定した有利な信号を得るためのトーナメントベースのランキングスキームを考案する。
実験により、ArenaRLは標準のRLベースラインを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2026-01-10T08:43:07Z) - Mixture of Ranks with Degradation-Aware Routing for One-Step Real-World Image Super-Resolution [76.66229730098759]
実世界の画像超解像(Real-ISR)では、既存のアプローチは主に微調整された事前学習拡散モデルに依存している。
単一ステップ画像超解像のためのMixture-of-Ranks (MoR)アーキテクチャを提案する。
LoRAの各ランクを独立した専門家として扱う、きめ細かい専門家分割戦略を導入する。
論文 参考訳(メタデータ) (2025-11-20T04:11:44Z) - Adaptive Sample-Level Framework Motivated by Distributionally Robust Optimization with Variance-Based Radius Assignment for Enhanced Neural Network Generalization Under Distribution Shift [0.8101875496469488]
経験的リスク最小化(ERM)を用いて訓練された深層ニューラルネットワークの信頼性を損なう場合が多い。
本稿では、リスクの高いトレーニングサンプルを自動的に識別し、オンラインの損失分散に基づいて個人化されたロバスト性予算を割り当てる分散駆動型サンプルレベルDROフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-04T10:20:21Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - REX-RAG: Reasoning Exploration with Policy Correction in Retrieval-Augmented Generation [35.0649927279081]
強化学習(RL)は、大規模言語モデル(LLM)が複雑な推論タスクを実行できるための強力なパラダイムとして浮上している。
本稿では、厳格な政策学習を維持しつつ、代替推論経路を探求するフレームワークであるREX-RAGを提案する。
その結果,REX-RAG は Qwen2.5-3B では5.1%, Qwen2.5-7B では3.6% であることがわかった。
論文 参考訳(メタデータ) (2025-08-11T16:25:25Z) - RoseRAG: Robust Retrieval-augmented Generation with Small-scale LLMs via Margin-aware Preference Optimization [53.63439735067081]
大規模言語モデル(LLM)は目覚ましい性能を達成したが、高い計算コストとレイテンシに直面している。
Retrieval-augmented Generation (RAG) は、外部知識を統合するのに役立つが、不完全な検索は、SLMを誤解させるノイズを引き起こす可能性がある。
我々は、Margin-aware Preference Optimizationを通じて、SLMのための堅牢なRAGフレームワークであるRoseRAGを提案する。
論文 参考訳(メタデータ) (2025-02-16T04:56:53Z) - Federated Distributionally Robust Optimization for Phase Configuration
of RISs [106.4688072667105]
我々は、教師付き学習環境において、多種多様なRISタイプ上での堅牢な再構成可能なインテリジェントサーフェス(RIS)支援ダウンリンク通信の問題について検討する。
異種RIS設計上のダウンリンク通信を分散的に位相構成を最適化する方法を学ぶ異なる労働者としてモデル化することにより、分散学習問題を解決することができる。
提案アルゴリズムは, 競合するベースラインと比較して, 最悪の分布精度を実現するために, 通信ラウンドを少なくする必要がある。
論文 参考訳(メタデータ) (2021-08-20T07:07:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。