Fugu-MT 論文翻訳(概要): GameArena: Evaluating LLM Reasoning through Live Computer Games

論文の概要: GameArena: Evaluating LLM Reasoning through Live Computer Games

arxiv url: http://arxiv.org/abs/2412.06394v1
Date: Mon, 09 Dec 2024 11:22:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-10 23:11:44.323727
Title: GameArena: Evaluating LLM Reasoning through Live Computer Games
Title（参考訳）: GameArena:ライブコンピュータゲームによるLLM推論の評価
Authors: Lanxiang Hu, Qiyu Li, Anze Xie, Nan Jiang, Ion Stoica, Haojian Jin, Hao Zhang,
Abstract要約: 我々は,人間との対話型ゲームプレイを通じて,大規模言語モデル(LLM)推論能力を評価するベンチマークであるGameArenaを紹介する。 GameArenaは3つのゲームからなり、参加者を楽しませたりエンゲージメントしたりしながら、特定の推論能力(演能的推論や帰納的推論など)をテストする。我々は2000以上のゲームセッションを収集し、5つの最先端LCMに対して様々な推論能力の詳細な評価を行う。
参考スコア（独自算出の注目度）: 25.415321902887598
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Evaluating the reasoning abilities of large language models (LLMs) is challenging. Existing benchmarks often depend on static datasets, which are vulnerable to data contamination and may get saturated over time, or on binary live human feedback that conflates reasoning with other abilities. As the most prominent dynamic benchmark, Chatbot Arena evaluates open-ended questions in real-world settings, but lacks the granularity in assessing specific reasoning capabilities. We introduce GameArena, a dynamic benchmark designed to evaluate LLM reasoning capabilities through interactive gameplay with humans. GameArena consists of three games designed to test specific reasoning capabilities (e.g., deductive and inductive reasoning), while keeping participants entertained and engaged. We analyze the gaming data retrospectively to uncover the underlying reasoning processes of LLMs and measure their fine-grained reasoning capabilities. We collect over 2000 game sessions and provide detailed assessments of various reasoning capabilities for five state-of-the-art LLMs. Our user study with 100 participants suggests that GameArena improves user engagement compared to Chatbot Arena. For the first time, GameArena enables the collection of step-by-step LLM reasoning data in the wild.
Abstract（参考訳）: 大規模言語モデル(LLM)の推論能力を評価することは困難である。既存のベンチマークは、しばしば静的なデータセットに依存しており、データ汚染に弱いため、時間とともに飽和する可能性がある。最も顕著な動的ベンチマークとして、Chatbot Arenaは、実際の環境でのオープンエンドの質問を評価するが、特定の推論能力の評価には粒度の欠如がある。我々は,人間との対話型ゲームプレイによるLLM推論能力を評価するために設計された動的ベンチマークであるGameArenaを紹介する。 GameArenaは、特定の推論能力をテストするために設計された3つのゲーム(例:誘惑的推論、帰納的推論)で構成され、参加者を楽しませ、エンゲージメントする。 LLMの根底にある推論過程を明らかにするために,ゲームデータを遡及的に分析し,その微粒な推論能力を測定する。我々は2000以上のゲームセッションを収集し、5つの最先端LCMに対して様々な推論能力の詳細な評価を行う。参加者100名を対象に行ったユーザ調査から,GameArenaはChatbot Arenaに比べてユーザエンゲージメントが向上していることが示唆された。 GameArenaは初めて、ステップバイステップのLSM推論データを野生で収集することを可能にする。

関連論文リスト

LLM CHESS: Benchmarking Reasoning and Instruction-Following in LLMs through Chess [30.797553771114746]
LLM CHESSは,大規模言語モデル(LLM)における推論と命令追従能力の一般化を調査するための評価フレームワークである。我々は,移動品質,移動法則,幻覚行動,ゲーム持続時間などの行動指標を用いて,ランダムな相手と対戦することで,50以上のオープンかつクローズドなソースモデルをランク付けする。トップ推論モデルのサブセットとして,可変構成のスキルを持つチェスエンジンと対戦して,Elo推定を導出する。
論文参考訳（メタデータ） (2025-12-01T18:51:08Z)
Evaluating from Benign to Dynamic Adversarial: A Squid Game for Large Language Models [57.33350664910483]
資源制約と非対称な情報設定を備えた動的・対角的評価環境であるSquid Gameを紹介する。我々は,Squid Game 上で50以上の LLM を評価し,動的対向シナリオにおける一般 LLM の行動評価研究を最大規模で行った。
論文参考訳（メタデータ） (2025-11-12T06:06:29Z)
Beyond Survival: Evaluating LLMs in Social Deduction Games with Human-Aligned Strategies [54.08697738311866]
Werewolfのようなソーシャル推論ゲームは、言語、推論、戦略を組み合わせている。我々は,100時間以上のビデオ,32.4M発声トークン,15の規則変種を含む高品質で人間認証されたWerewolfデータセットをキュレートした。本稿では,勝利派戦略を2段階の真理として活用する新たな戦略調整評価法を提案する。
論文参考訳（メタデータ） (2025-10-13T13:33:30Z)
Who is a Better Player: LLM against LLM [53.46608216197315]
本稿では,大規模言語モデル (LLM) の総合的な性能を評価するための対戦型ベンチマークフレームワークを提案する。広範にプレイされている5つのゲームをサポートし,20のLDMを駆使したプレーヤーを対象とする,特別な評価プラットフォームであるQi Townを紹介した。
論文参考訳（メタデータ） (2025-08-05T06:41:47Z)
lmgame-Bench: How Good are LLMs at Playing Games? [60.01834131847881]
本稿では,現代の大規模言語モデル (LLM) エージェントを評価するために,人気ゲームを使用する上での大きな課題について検討する。我々はlmgame-Benchを導入し、ゲームを信頼性評価に変換する。
論文参考訳（メタデータ） (2025-05-21T06:02:55Z)
TALES: Text Adventure Learning Environment Suite [28.997169350434795]
推論は、LLM(Large Language Models)が世界と対話するための重要なスキルである。本稿では,多種多様な推論能力に挑戦し,評価するために設計された,多種多様な合成・人文テキストアドベンチャーゲームであるTALESを紹介する。シンセサイザーゲームで目覚ましいショーがあったにもかかわらず、トップのLSM駆動エージェントでさえ、人間の楽しみのために設計されたゲームで15%を達成できなかった。
論文参考訳（メタデータ） (2025-04-19T01:02:42Z)
ZeroSumEval: Scaling LLM Evaluation with Inter-Model Competition [14.753916893216129]
ZeroSumEvalは、ゼロサムゲームを利用して大規模言語モデル(LLM)を評価する新しい競合ベースの評価プロトコルである。 ZeroSumEvalには、セキュリティ上の課題(PyJail)、古典的なゲーム(Chess, Liar's Dice, Poker)、知識テスト(MathQuiz)、説得的課題(Gandalf, Debate)など、さまざまなゲームが含まれている。
論文参考訳（メタデータ） (2025-04-17T01:23:50Z)
Aurelia: Test-time Reasoning Distillation in Audio-Visual LLMs [72.5567678952768]
AURELIA(オーレリア)は、アクターに批判的なオーディオヴィジュアル(AV)推論フレームワークである。構造体を蒸留し、試験時に段階的にAVLLMに蒸留する。 AURELIAを用いて、100%の相対的な改善を実現し、その効果を実証した。
論文参考訳（メタデータ） (2025-03-29T20:42:29Z)
Triangulating LLM Progress through Benchmarks, Games, and Cognitive Tests [89.09172401497213]
本稿では,大規模質問応答ベンチマーク,インタラクティブゲーム,認知テストの3つの評価パラダイムについて検討する。効果的な言語使用に不可欠な認知能力を測定するための,対象とするテストスイートをコンパイルする。分析の結果,対話型ゲームは判別モデルにおける標準ベンチマークよりも優れていることがわかった。
論文参考訳（メタデータ） (2025-02-20T08:36:58Z)
Beyond Outcomes: Transparent Assessment of LLM Reasoning in Games [54.49589494014147]
GAMEBoTは、大規模言語モデルの厳格な評価のために設計されたゲームアリーナである。我々は,8つのゲームにまたがる17の卓越したLSMをベンチマークし,様々な戦略能力とゲーム特性について検討した。以上の結果から,LDMに詳細なCoTプロンプトが付与されている場合でも,GAMEBoTは大きな課題となることが示唆された。
論文参考訳（メタデータ） (2024-12-18T08:32:53Z)
Evaluating Creativity and Deception in Large Language Models: A Simulation Framework for Multi-Agent Balderdash [6.65572931991284]
大きな言語モデル(LLM)は複雑なタスクや対話的な環境において印象的な機能を示している。本稿では, LLMの創造性と論理的推論の両面を評価するために, Balderdash を利用したシミュレーションフレームワークを提案する。
論文参考訳（メタデータ） (2024-11-15T18:42:48Z)
TMGBench: A Systematic Game Benchmark for Evaluating Strategic Reasoning Abilities of LLMs [45.06415588947462]
我々は,ゲームタイプの包括的カバレッジ,新しいシナリオ,柔軟な組織に関するベンチマークであるTMGBenchを提案する。具体的には、古典ゲームとして構築された2x2ゲームのロビンソン・ゴーフォース位相によって要約された144種類のゲームタイプをすべて組み込む。トピックガイダンスやヒューマンインスペクションを通じて、多種多様な高品質なシナリオを作成するために、合成データ生成も採用しています。
論文参考訳（メタデータ） (2024-10-14T13:15:34Z)
When Reasoning Meets Information Aggregation: A Case Study with Sports Narratives [46.04238534224658]
スポーツ物語の分析を LLM が要求する推論における情報集約の重要性について検討する。我々はNBAの実際のバスケットボールデータを用いて総合的な実験を行い、ゲーム物語を合成する新しい手法であるSportsGenを提示する。その結果, GPT-4oを含むほとんどのモデルでは, 頻繁な得点パターンのため, バスケットボールの得点を正確に集計することができないことが判明した。
論文参考訳（メタデータ） (2024-06-17T20:49:35Z)
LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。しかし、それらは自然言語に対して本当に「理性」があるのだろうか? この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文参考訳（メタデータ） (2024-04-23T21:08:49Z)
GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。本稿では,LLMの競合環境における推論能力について検討する。まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文参考訳（メタデータ） (2024-02-19T18:23:36Z)
Avalon's Game of Thoughts: Battle Against Deception through Recursive Contemplation [80.126717170151]
本研究では,複雑なアバロンゲームを用いて,認知環境におけるLSMの可能性を探究する。本稿では,LLMの偽情報識別・対策能力を高めるための新しいフレームワークRecursive Contemplation(ReCon)を提案する。
論文参考訳（メタデータ） (2023-10-02T16:27:36Z)
GameEval: Evaluating LLMs on Conversational Games [93.40433639746331]
大規模言語モデル(LLM)を評価する新しいアプローチであるGameEvalを提案する。 GameEvalはLSMをゲームプレイヤーとして扱い、様々な形式の会話を起動することで達成した特定の目標にそれぞれ異なる役割を割り当てる。我々は,GameEvalが様々なLLMの能力を効果的に差別化することができ,複雑な問題を解決するための統合能力を総合的に評価できることを示した。
論文参考訳（メタデータ） (2023-08-19T14:33:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。