論文の概要: TextQuests: How Good are LLMs at Text-Based Video Games?
- arxiv url: http://arxiv.org/abs/2507.23701v1
- Date: Thu, 31 Jul 2025 16:22:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:10.120186
- Title: TextQuests: How Good are LLMs at Text-Based Video Games?
- Title(参考訳): テキストクエスト: LLMはテキストベースのビデオゲームでどれくらい良いか?
- Authors: Long Phan, Mantas Mazeika, Andy Zou, Dan Hendrycks,
- Abstract要約: TextQuestsは、Infocomのインタラクティブフィクションゲームスイートをベースにしたベンチマークである。
外部ツールの使用を前もって,自己完結型問題解決のためのエージェントの能力を評価するように設計されている。
- 参考スコア(独自算出の注目度): 36.024745739590216
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating AI agents within complex, interactive environments that mirror real-world challenges is critical for understanding their practical capabilities. While existing agent benchmarks effectively assess skills like tool use or performance on structured tasks, they often do not fully capture an agent's ability to operate autonomously in exploratory environments that demand sustained, self-directed reasoning over a long and growing context. To spur the development of agents capable of more robust intrinsic reasoning over long horizons, we introduce TextQuests, a benchmark based on the Infocom suite of interactive fiction games. These text-based adventures, which can take human players over 30 hours and require hundreds of precise actions to solve, serve as an effective proxy for evaluating AI agents on focused, stateful tasks. The benchmark is specifically designed to assess an LLM agent's capacity for self-contained problem-solving by precluding the use of external tools, thereby focusing on intrinsic long-context reasoning capabilities in an exploratory environment characterized by the need for trial-and-error learning and sustained problem-solving within a single interactive session. We release TextQuests at https://textquests.ai.
- Abstract(参考訳): 現実の課題を反映した複雑でインタラクティブな環境でAIエージェントを評価することは、現実的な能力を理解する上で重要である。
既存のエージェントベンチマークは、ツールの使用や構造化されたタスクのパフォーマンスなどのスキルを効果的に評価するが、持続的で自己指向的な推論を必要とする探索環境において、エージェントが自律的に操作する能力を完全には捉えないことが多い。
長い地平線上でより堅牢な本質的推論が可能なエージェントの開発を促進するために,InfocomのインタラクティブフィクションゲームスイートをベースとしたベンチマークであるTextQuestsを紹介した。
これらのテキストベースの冒険は、人間のプレーヤーが30時間以上かけて、解決に数百の正確なアクションを必要とするもので、集中的でステートフルなタスクでAIエージェントを評価するための効果的なプロキシとして機能する。
このベンチマークは、外部ツールの使用を前提として、LLMエージェントの自己完結型問題解決能力を評価することを目的としており、単一の対話的なセッションで試行錯誤学習と持続的問題解決の必要性を特徴とする探索環境における本質的な長期コンテキスト推論能力に焦点を当てている。
TextQuestsはhttps://textquests.ai.comで公開しています。
関連論文リスト
- From Passive to Active Reasoning: Can Large Language Models Ask the Right Questions under Incomplete Information? [34.959850282872594]
LLMのアクティブな推論能力を評価するために設計された新しいベンチマークであるAR-Benchを提案する。
AR-Benchは3つのタスクファミリー検出ケース、状況パズル、推測数で構成される。
AR-ベンチに関する実証的な評価は、現代のLDMは活発な推論を伴う困難を顕著に示していることを示している。
論文 参考訳(メタデータ) (2025-06-09T23:56:41Z) - A Desideratum for Conversational Agents: Capabilities, Challenges, and Future Directions [51.96890647837277]
大規模言語モデル(LLM)は、従来の対話システムから、自律的な行動、文脈認識、ユーザとのマルチターンインタラクションが可能な高度なエージェントへと、会話AIを推進してきた。
本調査では,人間レベルの知性にアプローチするよりスケーラブルなシステムにおいて,何が達成されたのか,どのような課題が持続するのか,何を行う必要があるのか,といった,次世代の会話エージェントのデシラトゥムを提示する。
論文 参考訳(メタデータ) (2025-04-07T21:01:25Z) - MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-07-18T00:58:41Z) - STARLING: Self-supervised Training of Text-based Reinforcement Learning Agent with Large Language Models [5.786039929801102]
インタラクティブなフィクションゲームのための既存の環境は、特定のスキルセットをマスターするためにRLエージェントを生成するのにドメイン固有または時間を要する。
本稿では,テキストベースのRLエージェントを自動生成ゲームでブートストラップし,目標環境の目標を達成するためのパフォーマンスと一般化能力を向上する,自己教師型RL,STARlingのための対話型環境を提案する。
論文 参考訳(メタデータ) (2024-06-09T18:07:47Z) - VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。
このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文 参考訳(メタデータ) (2024-01-24T18:35:21Z) - Deciphering Digital Detectives: Understanding LLM Behaviors and
Capabilities in Multi-Agent Mystery Games [26.07074182316433]
本稿では,Jubenshaに特化している最初のデータセットについて紹介する。
我々の研究は、LSMを使ったユニークなマルチエージェントインタラクションフレームワークも提供し、AIエージェントがこのゲームに自律的に関与できるようにする。
これらのAIエージェントのゲーム性能を評価するために,ケース情報と推論スキルの熟達度を測定する新しい手法を開発した。
論文 参考訳(メタデータ) (2023-12-01T17:33:57Z) - An Analysis of Deep Reinforcement Learning Agents for Text-based Games [4.9702715037812055]
テキストベースのゲーム(TBG)は、ユーザまたはコンピュータエージェントがテキストインタラクションを行い、ゲーム目標を達成する複雑な環境である。
TBGエージェントを標準化した環境での深層学習モジュールの性能を確認し,その性能を異なる評価タイプで検証することが,TBGエージェント研究においても重要である。
我々は,手作りルールのない標準化されたTBGエージェントを構築し,TBG評価タイプを正式に分類し,我々の環境における選択手法を解析した。
論文 参考訳(メタデータ) (2022-09-09T03:36:06Z) - Automatic Exploration of Textual Environments with Language-Conditioned
Autotelic Agents [21.29303927728839]
テキストワールドの鍵となる性質を同定し, オートトンエージェントによる探索に適していることを示す。
本稿では,テキスト環境ベンチマークの進歩に自律エージェントを用いる機会について論じる。
論文 参考訳(メタデータ) (2022-07-08T20:31:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。