論文の概要: Coopetition-Gym v1: A Formally Grounded Platform for Mixed-Motive Multi-Agent Reinforcement Learning under Strategic Coopetition
- arxiv url: http://arxiv.org/abs/2605.02063v1
- Date: Sun, 03 May 2026 21:14:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.065978
- Title: Coopetition-Gym v1: A Formally Grounded Platform for Mixed-Motive Multi-Agent Reinforcement Learning under Strategic Coopetition
- Title(参考訳): Coopetition-Gym v1: 戦略的Coopetition下での混合運動型マルチエージェント強化学習のための形式的基盤プラットフォーム
- Authors: Vik Pant, Eric Yu,
- Abstract要約: Coopetition-Gym v1は、戦略的コパイションの下での混合モチベーション強化学習のためのベンチマークプラットフォームである。
プラットフォームは、Gymnasium、Petting Parallel、PettingZoo AECインターフェースを公開し、116の参照アルゴリズムを出荷する。
- 参考スコア(独自算出の注目度): 0.33985917934283577
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Coopetition-Gym v1, a benchmark platform for mixed-motive multi-agent reinforcement learning under strategic coopetition. The platform comprises twenty environments organized into four mechanism classes that correspond to four foundational technical reports: interdependence and complementarity (arXiv:2510.18802), trust and reputation dynamics (arXiv:2510.24909), collective action and loyalty (arXiv:2601.16237), and sequential interaction and reciprocity (arXiv:2604.01240). Each environment carries a closed-form payoff structure and a calibrated interdependence matrix derived from the corresponding report. Every environment exposes a parameterized reward layer configurable across three structurally distinct modes (private, integrated, cooperative). This separation of payoff from reward enables reward-type ablation, the platform's principal methodological apparatus. Four of the twenty environments are calibrated against historically documented coopetitive relationships and reproduce their outcomes at 98.3, 81.7, 86.7, and 87.3 percent on the validation rubric (Samsung-Sony LCD, Renault-Nissan Alliance, Apache HTTP Server, Apple iOS App Store). The platform exposes Gymnasium, PettingZoo Parallel, and PettingZoo AEC interfaces and ships 126 reference algorithms: 16 learning algorithms, 7 game-theoretic oracles, 2 heuristic baselines, and 101 constant-action policies. A reference experimental study trained the 16 learning algorithms on every environment under every reward configuration with seven random seeds, producing a 25,708-run training corpus and a 1,116-run behavioral audit corpus, both released under CC-BY-4.0 with Croissant 1.0 metadata. Coopetition-Gym v1 is the first platform to combine continuous-action mixed-motive environments, parameterized reward mutuality, calibrated interdependence coefficients, game-theoretic oracle baselines, and validated case studies.
- Abstract(参考訳): 本稿では,コペティションに基づくマルチエージェント強化学習のためのベンチマークプラットフォームであるCoopetition-Gym v1を提案する。
プラットフォームは、相互依存と相補性(arXiv:2510.18802)、信頼と評判のダイナミクス(arXiv:2510.24909)、集団行動と忠誠(arXiv:2601.16237)、シーケンシャル相互作用と相互性(arXiv:2604.01240)の4つの基本的な技術的レポートに対応する4つのメカニズムクラスで構成されている。
各環境は、クローズドフォームのペイオフ構造と、対応するレポートから派生したキャリブレーションされた相互依存行列を有する。
各環境は、3つの構造的に異なるモード(プライベート、統合、協調)で構成可能なパラメータ化された報酬層を公開する。
この報酬と報酬の分離は、プラットフォームの主要な方法論装置である報酬型アブレーションを可能にする。
20の環境のうち4つは、歴史的に記録されたコペティティブな関係に対して調整され、検証ルーリック(Samsung-Sony LCD、Renault-Nissan Alliance、Apache HTTP Server、Apple iOS App Store)の98.3、81.7、86.7、87.3%で結果が再現される。
プラットフォームは、Gymnasium、PettingZoo Parallel、PettingZoo AECインターフェースを公開し、16の学習アルゴリズム、7のゲーム理論のオラクル、2つのヒューリスティックベースライン、101の定期的なアクションポリシーを含む126の参照アルゴリズムを出荷する。
基準実験では、16の学習アルゴリズムを、7つのランダムなシードで全ての環境下で訓練し、25,708個のトレーニングコーパスと1,116個の行動監査コーパスを生成した。
Coopetition-Gym v1は、連続作用混合運動環境、パラメータ化された報酬相互性、キャリブレーションされた相互依存性係数、ゲーム理論のオラクルベースライン、検証されたケーススタディを組み合わせた最初のプラットフォームである。
関連論文リスト
- Token Arena: A Continuous Benchmark Unifying Energy and Cognition in AI Inference [1.2299000423193074]
TokenArenaは、5つのコア軸に沿って粒度エンドポイントでの推論を測定する連続ベンチマークである。
フレームワーク、スキーマ、プローブ、evalハーネス、v1.0のリーダボードスナップショットをCC BY 4.0でリリースしています。
論文 参考訳(メタデータ) (2026-05-01T00:05:54Z) - When Does Context Help? A Systematic Study of Target-Conditional Molecular Property Prediction [0.0]
ターゲットコンテキストが分子特性の予測に役立っているかに関する最初の体系的研究。
NestDrugはFiLMベースのアーキテクチャで、ターゲットのアイデンティティに分子表現を設定できる。
最初の厳密な証拠は、文脈条件分子表現が将来の化学空間に一般化されることである。
論文 参考訳(メタデータ) (2026-04-08T01:19:16Z) - OpenCLAW-P2P v6.0: Resilient Multi-Layer Persistence, Live Reference Verification, and Production-Scale Evaluation of Decentralized AI Peer Review [0.0]
OpenCLAW-P2P v6.0は分散集団知能プラットフォームの進化である。
人間のゲートキーパーなしで科学的研究論文を出版、査読、採点、反復的に改善する。
論文 参考訳(メタデータ) (2026-04-06T09:08:24Z) - Computational Foundations for Strategic Coopetition: Formalizing Sequential Interaction and Reciprocity [0.33985917934283577]
マルチステークホルダーシステムにおける戦略的協調は、契約を拘束することなく、時間を通して協力がどのように持続するかを理解する必要がある。
この技術報告は、戦略的コペアションの計算基盤を逐次相互作用力学に拡張する。
論文 参考訳(メタデータ) (2026-03-29T19:16:20Z) - STEP3-VL-10B Technical Report [115.89015065130127]
STEP3-VL-10Bは、コンパクト効率とフロンティアレベルのマルチモーダルインテリジェンスとのトレードオフを再定義する軽量基盤モデルである。
そこで我々はPallel Coordinated Reasoning(PaCoRe)を実装して,テスト時間計算をスケールし,リソースをスケーラブルな知覚推論に割り当てる。
MMBenchでは92.2%、MMMUでは80.11%、AIME2025では94.43%、MathVisionでは75.95%である。
論文 参考訳(メタデータ) (2026-01-14T17:58:24Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - The Meta-Learning Gap: Combining Hydra and Quant for Large-Scale Time Series Classification [0.0]
時系列分類は精度と計算効率の基本的なトレードオフに直面している。
2つの効率的なアルゴリズムの組み合わせがアンサンブルの利点を捉えることができるかどうかを検討する。
10個の大規模なMONSTERデータセットの性能評価を行った。
論文 参考訳(メタデータ) (2025-12-07T05:37:40Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - K-Net: Towards Unified Image Segmentation [78.32096542571257]
K-Netと名付けられたこのフレームワークは、学習可能なカーネルのグループによってインスタンスとセマンティックカテゴリの両方を一貫して分割する。
K-Netは双方向マッチングでエンドツーエンドでトレーニングすることができ、そのトレーニングと推論は自然にNMSフリーで、ボックスフリーである。
論文 参考訳(メタデータ) (2021-06-28T17:18:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。