論文の概要: Orak: A Foundational Benchmark for Training and Evaluating LLM Agents on Diverse Video Games
- arxiv url: http://arxiv.org/abs/2506.03610v1
- Date: Wed, 04 Jun 2025 06:40:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.18444
- Title: Orak: A Foundational Benchmark for Training and Evaluating LLM Agents on Diverse Video Games
- Title(参考訳): Orak: 多様なビデオゲームにおけるLDMエージェントのトレーニングと評価のための基礎ベンチマーク
- Authors: Dongmin Park, Minkyu Kim, Beongjun Choi, Junhyuck Kim, Keon Lee, Jonghyun Lee, Inkyu Park, Byeong-Uk Lee, Jaeyoung Hwang, Jaewoo Ahn, Ameya S. Mahabaleshwarkar, Bilal Kartal, Pritam Biswas, Yoshi Suhara, Kangwook Lee, Jaewoong Cho,
- Abstract要約: textbfbenchnameは,多種多様な現実世界のビデオゲームを対象とした大規模言語モデル(LLM)エージェントの訓練と評価を目的としたベンチマークである。
LLMの一貫した評価を支援するために,モデルコンテキストプロトコル(MCP)に基づくプラグアンドプレイインタフェースを導入する。
Orakは総合的な評価フレームワークを提供しており、一般的なゲームスコアのリーダーボード、LLMバトルアリーナ、視覚入力状態、エージェント戦略、微調整効果の詳細な分析を含んでいる。
- 参考スコア(独自算出の注目度): 16.187737674778234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM) agents are reshaping the game industry, particularly with more intelligent and human-preferable game characters. However, existing game benchmarks fall short of practical needs: they lack evaluations of diverse LLM capabilities across various game genres, studies of agentic modules crucial for complex gameplay, and fine-tuning datasets for aligning pre-trained LLMs into gaming agents. To fill these gaps, we present \textbf{\benchname{}}, a foundational benchmark designed to train and evaluate LLM agents across diverse real-world video games. Unlike existing benchmarks, Orak includes 12 popular video games spanning all major genres, enabling comprehensive studies of LLM capabilities and agentic modules essential for intricate game scenarios. To support consistent evaluation of LLMs, we introduce a plug-and-play interface based on Model Context Protocol (MCP) that enables LLMs to seamlessly connect with games and manipulate agentic modules. Additionally, we propose a fine-tuning dataset, consisting of LLM gameplay trajectories across diverse game genres. Orak offers a comprehensive evaluation framework, encompassing general game score leaderboards, LLM battle arenas, and in-depth analyses of visual input state, agentic strategies, and fine-tuning effects, establishing a foundation towards building generic gaming agents. Code is available at https://github.com/krafton-ai/Orak.
- Abstract(参考訳): 大型言語モデル(LLM)エージェントはゲーム産業、特によりインテリジェントで人間に好まれるゲームキャラクタを変革している。
しかし、既存のゲームベンチマークは、様々なゲームジャンルにまたがる多様なLLM能力の評価、複雑なゲームプレイに不可欠なエージェントモジュールの研究、トレーニング済みのLLMをゲームエージェントに整列させるための微調整データセットが欠如している。
これらのギャップを埋めるために、さまざまな現実世界のビデオゲームでLLMエージェントをトレーニングし評価するための基礎ベンチマークである‘textbf{\benchname{}} を提示する。
既存のベンチマークとは異なり、Orakには、すべての主要なジャンルにまたがる12の人気のあるビデオゲームが含まれており、複雑なゲームシナリオに不可欠なLLM機能とエージェントモジュールの包括的な研究を可能にしている。
LLMを一貫した評価を支援するために,モデルコンテキストプロトコル(MCP)に基づくプラグアンドプレイインタフェースを導入し,ゲームとのシームレスな接続とエージェントモジュール操作を実現する。
さらに,多種多様なゲームジャンルにまたがるLLMゲームプレイトラジェクトリからなる微調整データセットを提案する。
Orakは総合的な評価フレームワークを提供し、一般的なゲームスコアのリーダーボード、LLMバトルアリーナ、視覚入力状態、エージェント戦略、微調整効果の詳細な分析を包含し、ジェネリックゲームエージェントを構築するための基盤を確立している。
コードはhttps://github.com/krafton-ai/Orak.comから入手できる。
関連論文リスト
- Empowering LLMs in Decision Games through Algorithmic Data Synthesis [29.128280701799074]
意思決定ゲームは、大規模言語モデルの推論能力を評価し、強化するための理想的なサンドボックスとして機能する。
データ合成戦略を設計し、2つの古典ゲーム、DoudizhuとGoから広範囲のオフラインデータセットをキュレートする。
我々は、このデータをLLMトレーニングに効果的に組み込むための一連の技術を開発し、その結果、Mastermind-Dou と Mastermind-Go という2つの新しいエージェントを生み出した。
論文 参考訳(メタデータ) (2025-03-18T07:30:29Z) - GAMEBoT: Transparent Assessment of LLM Reasoning in Games [54.49589494014147]
GAMEBoTは、大規模言語モデルの厳格な評価のために設計されたゲームアリーナである。
我々は,8つのゲームにまたがる17の卓越したLSMをベンチマークし,様々な戦略能力とゲーム特性について検討した。
以上の結果から,LDMに詳細なCoTプロンプトが付与されている場合でも,GAMEBoTは大きな課題となることが示唆された。
論文 参考訳(メタデータ) (2024-12-18T08:32:53Z) - Atari-GPT: Benchmarking Multimodal Large Language Models as Low-Level Policies in Atari Games [2.2648566044372416]
本稿では,アタリゲームにおける低レベルポリシーとして,マルチモーダル LLM の創発的能力をテストするための新しいベンチマークを提案する。
本研究では,従来のRLエージェント,ヒトプレイヤー,ランダムエージェントに対するマルチモーダルLLMの性能評価を行った。
以上の結果から,これらのマルチモーダル LLM はゼロショットの低レベルポリシーをまだ実現できていないことが示唆された。
論文 参考訳(メタデータ) (2024-08-28T17:08:56Z) - A Survey on Large Language Model-Based Game Agents [9.140712714337273]
ゲームエージェントの開発は、人工知能に向けた重要な役割を担っている。
LLM(Large Language Models)の進歩は、ゲームエージェントを進化させ、強化する前例のない機会を提供する。
本稿では, LLMをベースとしたゲームエージェントについて, 総合的な視点から概観する。
論文 参考訳(メタデータ) (2024-04-02T15:34:18Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - SmartPlay: A Benchmark for LLMs as Intelligent Agents [45.76707302899935]
SmartPlayはRock-Paper-Scissors, Tower of Hanoi, Minecraftなど,6つの異なるゲームで構成されている。
各ゲームは知的LLMエージェントの9つの重要な能力のサブセットに挑戦する。
テストには、オブジェクト依存による推論、事前計画、空間的推論、履歴からの学習、ランダムさの理解が含まれる。
論文 参考訳(メタデータ) (2023-10-02T18:52:11Z) - Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation [52.930183136111864]
我々は,大言語モデル(LLM)を評価するためにスコーラブルネゴシエーション(scorable negotiations)を提案する。
合意に達するには、エージェントは強力な算術、推論、探索、計画能力を持つ必要がある。
我々は、新しいゲームを作成し、進化するベンチマークを持つことの難しさを増大させる手順を提供する。
論文 参考訳(メタデータ) (2023-09-29T13:33:06Z) - GameEval: Evaluating LLMs on Conversational Games [93.40433639746331]
大規模言語モデル(LLM)を評価する新しいアプローチであるGameEvalを提案する。
GameEvalはLSMをゲームプレイヤーとして扱い、様々な形式の会話を起動することで達成した特定の目標にそれぞれ異なる役割を割り当てる。
我々は,GameEvalが様々なLLMの能力を効果的に差別化することができ,複雑な問題を解決するための統合能力を総合的に評価できることを示した。
論文 参考訳(メタデータ) (2023-08-19T14:33:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。