論文の概要: Agent Island: A Saturation- and Contamination-Resistant Benchmark from Multiagent Games
- arxiv url: http://arxiv.org/abs/2605.04312v1
- Date: Tue, 05 May 2026 21:24:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-07 18:41:07.551676
- Title: Agent Island: A Saturation- and Contamination-Resistant Benchmark from Multiagent Games
- Title(参考訳): エージェントアイランド:マルチエージェントゲームにおける飽和・汚染耐性ベンチマーク
- Authors: Connacher Murphy,
- Abstract要約: 我々は,言語モデルエージェントが相互協力,対立,説得のゲームで競うマルチプレイヤーシミュレーション環境であるエージェントアイランドを紹介した。
ベイズプラケット・ルーキーモデルでプレイヤーをランク付けし、プレイヤースキルの不確実性を定量化する。
49のユニークなモデルを含む999のゲームでは、openai/gpt-5.5が5.64で、第2位のモデルであるopenai/gpt-5.2と第3位のモデルであるopenai/gpt-5.3-codexの2.86と、ピアを圧倒している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Static capabilities benchmarks suffer from saturation and contamination, making it difficult to track capabilities progress over time. We introduce Agent Island, a multiplayer simulation environment in which language-model agents compete in a game of interagent cooperation, conflict, and persuasion. The environment yields a dynamic benchmark designed to mitigate both saturation and contamination; new models can always outperform the current leading player in this winner-take-all game, and agents compete against other adaptive agents rather than face a fixed task set. We rank players with a Bayesian Plackett-Luce model, allowing us to quantify uncertainty in player skill. In 999 games involving 49 unique models, openai/gpt-5.5 dominates its peers with a posterior mean skill of 5.64, compared with 3.10 for the second-ranked model, openai/gpt-5.2, and 2.86 for the third-ranked model, openai/gpt-5.3-codex. We release the game logs as a dataset for analyses of model behavior. As an example, we investigate same-provider preference in final-round votes and find that models are 8.3 p.p. more likely to support a same-provider finalist than finalists from other providers. This preference is not uniform across providers: among separately estimated providers, the effect is strongest for OpenAI models and weakest for Anthropic models.
- Abstract(参考訳): 静的機能ベンチマークは飽和と汚染に悩まされており、時間とともに能力の進歩を追跡するのが難しくなる。
我々は,言語モデルエージェントが相互協力,対立,説得のゲームで競うマルチプレイヤーシミュレーション環境であるエージェントアイランドを紹介した。
環境は飽和と汚染を緩和するために設計された動的ベンチマークを出力し、新しいモデルは、この勝者のゲームにおいて常に現在のリードプレイヤーより優れており、エージェントは固定されたタスクセットに直面するのではなく、他の適応エージェントと競合する。
ベイズプラケット・ルーシモデルを用いてプレイヤーをランク付けし、プレイヤースキルの不確実性を定量化する。
49のユニークなモデルを含む999のゲームでは、openai/gpt-5.5が5.64で、第2位のモデルであるopenai/gpt-5.2と第3位のモデルであるopenai/gpt-5.3-codexの2.86に対して、ピアが5.64で支配している。
モデル行動解析のためのデータセットとしてゲームログをリリースする。
例えば、ファイナルラウンド投票における同業者の選好を調査し、他のプロバイダーのファイナリストよりもモデルが同業者のファイナリストを支持する傾向が8.3 p.p.であることを示す。
別々に見積もられているプロバイダの中で、この効果はOpenAIモデルで最強であり、Arthropicモデルで最弱である。
関連論文リスト
- GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents [76.60994803070436]
GameWorldは、ブラウザ環境におけるマルチモーダル大言語モデル(MLLM)ゲームエージェントの評価のためのベンチマークである。
2つのゲームエージェントインタフェースが研究され、 (i) キーボードとマウスのコントロールを直接出力するコンピュータ利用エージェント、 (ii) セマンティックアクション空間で作用する汎用マルチモーダルエージェントが研究されている。
18組のモデルとインタフェースのペアによる結果は、最高のパフォーマンスエージェントでさえ、ビデオゲームで人間の能力を達成するには程遠いことを示唆している。
論文 参考訳(メタデータ) (2026-04-08T17:49:03Z) - Coherent Multi-Agent Trajectory Forecasting in Team Sports with CausalTraj [0.0]
CausalTrajは時間的因果関係に基づくモデルであり、共同で予測可能なマルチエージェント軌道予測を生成する。
NBAスポーツVU、バスケットボールU、フットボールUのデータセットで評価された。
論文 参考訳(メタデータ) (2025-11-23T02:24:20Z) - Game-TARS: Pretrained Foundation Models for Scalable Generalist Multimodal Game Agents [56.25101378553328]
本稿では,汎用ゲームエージェントであるGame-TARSについて紹介する。
Game-TARSは500B以上のトークンで事前トレーニングされており、様々な軌跡とマルチモーダルデータがある。
実験により、Game-TARSは、オープンワールドMinecraftタスクにおける以前のソータモデルの約2倍の成功率を達成することが示された。
論文 参考訳(メタデータ) (2025-10-27T17:43:51Z) - Scheming Ability in LLM-to-LLM Strategic Interactions [4.873362301533824]
大規模言語モデル(LLM)エージェントは、さまざまな状況下で自律的にデプロイされる。
2つのゲーム理論フレームワークによるフロンティアLSMエージェントの能力と妥当性について検討する。
試験用4機種(GPT-4o、Gemini-2.5-pro、Claude-3.7-Sonnet、Llama-3.3-70b)
論文 参考訳(メタデータ) (2025-10-11T04:42:29Z) - LM Fight Arena: Benchmarking Large Multimodal Models via Game Competition [104.81487689011341]
本稿では,Mortal Kombat IIにおける大規模マルチモーダルモデルを評価する新しいフレームワークであるLM Fight Arenaを紹介する。
静的評価とは異なり、LM Fight Arenaは完全に自動化され、再現可能で、LMMの戦略的推論能力の客観的評価を提供する。
論文 参考訳(メタデータ) (2025-10-10T02:19:21Z) - On Corrigibility and Alignment in Multi Agent Games [0.0]
自律エージェントの信頼性はシステム設計の未調査部分である。
人間の嗜好に対する不確実性は、人間の不合理性に直面した場合でも、エージェントを矯正するために働くことが示唆されている。
本稿では,エージェントが常に人間に監督を依頼できる2人プレイヤゲームとして,マルチエージェント設定でコーリライザをモデル化するための一般的な枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-09T16:44:38Z) - Multi-agent Multi-armed Bandits with Stochastic Sharable Arm Capacities [69.34646544774161]
我々は、各アームへのリクエストの到着とプレイヤーへのリクエストの割り当てポリシーをキャプチャするマルチプレイヤーマルチアーム・バンディット(MAB)モデルの新しいバリエーションを定式化する。
課題は、プレイヤーが最適な腕引きプロファイルに従って腕を選択するように分散学習アルゴリズムを設計する方法である。
我々は,Mラウンドのみの最適腕引きプロファイルにおいて,プレイヤーがコンセンサスに達することを保証した反復分散アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-08-20T13:57:00Z) - Generation of Games for Opponent Model Differentiation [2.164100958962259]
これまでの結果から,人間の振る舞いをモデル化することで,アルゴリズムの性能が大幅に向上することが示唆された。
本研究では、悪意ある行為を行う可能性を高める人格タイプを特定する心理学者によって収集されたデータを用いる。
私たちはそのパラメータと心理的特徴を結びつける新しいモデルを作成しました。
論文 参考訳(メタデータ) (2023-11-28T13:45:03Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Decision-making with Speculative Opponent Models [10.594910251058087]
分散応答支援型マルチエージェントアクター・クリティカル(DOMAC)について紹介する。
DOMACは、ローカル情報(例えば、制御されたエージェントの観察、行動、報酬)のみに依存する最初の投機的相手モデリングアルゴリズムである。
論文 参考訳(メタデータ) (2022-11-22T01:29:47Z) - Multi-Agent Collaboration via Reward Attribution Decomposition [75.36911959491228]
本稿では,StarCraftのマルチエージェントチャレンジにおいて,最先端のパフォーマンスを実現するコラボレーション型Q-ラーニング(CollaQ)を提案する。
CollaQは様々なStarCraft属性マップで評価され、既存の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-16T17:42:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。