論文の概要: LM Fight Arena: Benchmarking Large Multimodal Models via Game Competition
- arxiv url: http://arxiv.org/abs/2510.08928v1
- Date: Fri, 10 Oct 2025 02:19:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.012095
- Title: LM Fight Arena: Benchmarking Large Multimodal Models via Game Competition
- Title(参考訳): LM Fight Arena:ゲームコンペティションによる大規模マルチモーダルモデルのベンチマーク
- Authors: Yushuo Zheng, Zicheng Zhang, Xiongkuo Min, Huiyu Duan, Guangtao Zhai,
- Abstract要約: 本稿では,Mortal Kombat IIにおける大規模マルチモーダルモデルを評価する新しいフレームワークであるLM Fight Arenaを紹介する。
静的評価とは異なり、LM Fight Arenaは完全に自動化され、再現可能で、LMMの戦略的推論能力の客観的評価を提供する。
- 参考スコア(独自算出の注目度): 104.81487689011341
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing benchmarks for large multimodal models (LMMs) often fail to capture their performance in real-time, adversarial environments. We introduce LM Fight Arena (Large Model Fight Arena), a novel framework that evaluates LMMs by pitting them against each other in the classic fighting game Mortal Kombat II, a task requiring rapid visual understanding and tactical, sequential decision-making. In a controlled tournament, we test six leading open- and closed-source models, where each agent operates controlling the same character to ensure a fair comparison. The models are prompted to interpret game frames and state data to select their next actions. Unlike static evaluations, LM Fight Arena provides a fully automated, reproducible, and objective assessment of an LMM's strategic reasoning capabilities in a dynamic setting. This work introduces a challenging and engaging benchmark that bridges the gap between AI evaluation and interactive entertainment.
- Abstract(参考訳): 大規模マルチモーダルモデル (LMM) の既存のベンチマークは、しばしばリアルタイムの対向的な環境でその性能を捉えるのに失敗する。
従来の格闘ゲーム『Mortal Kombat II』において、LMMを互いに対決して評価する新しいフレームワークであるLM Fight Arena(Large Model Fight Arena)を紹介した。
制御されたトーナメントでは、6つの主要なオープンソースモデルとクローズドソースモデルをテストする。
モデルはゲームフレームとステートデータを解釈して次のアクションを選択するように促される。
静的評価とは異なり、LM Fight Arenaは完全に自動化され、再現可能で、動的環境におけるLMMの戦略的推論能力の客観的評価を提供する。
この研究は、AI評価とインタラクティブエンターテイメントのギャップを埋める、挑戦的で魅力的なベンチマークを導入している。
関連論文リスト
- PillagerBench: Benchmarking LLM-Based Agents in Competitive Minecraft Team Environments [48.892997022500765]
PillagerBenchは、Minecraftのリアルタイムの競合チーム-vs-チームシナリオでマルチエージェントシステムを評価するフレームワークである。
また,LLMベースのマルチエージェントシステムであるTactiCrafterを提案する。
評価の結果、TactiCrafterはベースラインのアプローチよりも優れており、自己学習による適応学習を誇示している。
論文 参考訳(メタデータ) (2025-09-07T22:51:12Z) - Who is a Better Player: LLM against LLM [53.46608216197315]
本稿では,大規模言語モデル (LLM) の総合的な性能を評価するための対戦型ベンチマークフレームワークを提案する。
広範にプレイされている5つのゲームをサポートし,20のLDMを駆使したプレーヤーを対象とする,特別な評価プラットフォームであるQi Townを紹介した。
論文 参考訳(メタデータ) (2025-08-05T06:41:47Z) - SPARTA ALIGNMENT: Collectively Aligning Multiple Language Models through Combat [73.529925653031]
SPARTA ALIGNMENT(SPARTA ALIGNMENT)を提案する。
各イテレーションにおいて、1つの命令と2つのモデルがデュエルのために選択され、他のモデルが2つのレスポンスを評価し、それらの評価スコアは、適応されたエロランクベースの評価システムを介して集約される。
ピア評価された戦闘結果は、敗戦よりも勝利の反応が優先される選好ペアとなり、各イテレーションの最後にこれらの選好からすべてのモデルが学習される。
論文 参考訳(メタデータ) (2025-06-05T07:51:23Z) - Decentralized Arena: Towards Democratic and Scalable Automatic Evaluation of Language Models [66.51871176061195]
Decentralized Arena (dearena) は,すべての大規模言語モデルからの集合的インテリジェンスを活用して相互評価を行う,完全に自動化されたフレームワークである。
人の判断と最大で97%の相関を保ち コストを大幅に削減します
論文 参考訳(メタデータ) (2025-05-19T07:34:25Z) - TMGBench: A Systematic Game Benchmark for Evaluating Strategic Reasoning Abilities of LLMs [45.12542636218608]
ゲームタイプの包括的カバレッジ,多様なシナリオ,フレキシブルなゲーム組織を特徴とするTMGBenchを提案する。
具体的には、ベンチマークで古典ゲームとして構築された2x2ゲームのロビンソン・ゴーフォーストポロジーによって要約された144種類のゲームタイプをすべて組み込む。
より強力なLSMに適応可能な持続可能な評価フレームワークを提供するため、上記のゲームを原子単位として扱う。
論文 参考訳(メタデータ) (2024-10-14T13:15:34Z) - FightLadder: A Benchmark for Competitive Multi-Agent Reinforcement Learning [25.857375787748715]
我々は、リアルタイムの格闘ゲームプラットフォームであるFightLadderを紹介し、競争力のあるMARL研究を促進する。
競争ゲームのための最先端のMARLアルゴリズムの実装と評価指標のセットを提供する。
シングルプレイヤーモードで12文字を連続的に打ち破る汎用エージェントを訓練することにより,このプラットフォームの実現可能性を示す。
論文 参考訳(メタデータ) (2024-06-04T08:04:23Z) - L2E: Learning to Exploit Your Opponent [66.66334543946672]
本稿では,暗黙的対向モデリングのための新しい学習フレームワークを提案する。
L2Eは、トレーニング中に異なる相手との対話によって、相手を悪用する能力を取得する。
本稿では, 対戦相手を自動的に生成する新しい対戦相手戦略生成アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-18T14:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。