論文の概要: TextAtari: 100K Frames Game Playing with Language Agents
- arxiv url: http://arxiv.org/abs/2506.04098v2
- Date: Tue, 10 Jun 2025 13:14:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 12:52:34.259611
- Title: TextAtari: 100K Frames Game Playing with Language Agents
- Title(参考訳): TextAtari: 言語エージェントでプレイする100Kフレーム
- Authors: Wenhao Li, Wenwu Li, Chuyun Shen, Junjie Sheng, Zixiao Huang, Di Wu, Yun Hua, Wei Yin, Xiangfeng Wang, Hongyuan Zha, Bo Jin,
- Abstract要約: 最大10万ステップに及ぶ長期意思決定タスクにおいて,言語エージェントを評価するためのベンチマークであるTextAtariを提示する。
Atariのゲームをリッチなテキスト記述に翻訳することによって、TextAtariは、自然言語処理でシーケンシャルな意思決定を橋渡しする挑戦的なテストベッドを作る。
- 参考スコア(独自算出の注目度): 41.76961149900515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present TextAtari, a benchmark for evaluating language agents on very long-horizon decision-making tasks spanning up to 100,000 steps. By translating the visual state representations of classic Atari games into rich textual descriptions, TextAtari creates a challenging test bed that bridges sequential decision-making with natural language processing. The benchmark includes nearly 100 distinct tasks with varying complexity, action spaces, and planning horizons, all rendered as text through an unsupervised representation learning framework (AtariARI). We evaluate three open-source large language models (Qwen2.5-7B, Gemma-7B, and Llama3.1-8B) across three agent frameworks (zero-shot, few-shot chain-of-thought, and reflection reasoning) to assess how different forms of prior knowledge affect performance on these long-horizon challenges. Four scenarios-Basic, Obscured, Manual Augmentation, and Reference-based-investigate the impact of semantic understanding, instruction comprehension, and expert demonstrations on agent decision-making. Our results reveal significant performance gaps between language agents and human players in extensive planning tasks, highlighting challenges in sequential reasoning, state tracking, and strategic planning across tens of thousands of steps. TextAtari provides standardized evaluation protocols, baseline implementations, and a framework for advancing research at the intersection of language models and planning. Our code is available at https://github.com/Lww007/Text-Atari-Agents.
- Abstract(参考訳): 最大10万ステップに及ぶ、非常に長期にわたる意思決定タスクにおいて、言語エージェントを評価するためのベンチマークであるTextAtariを提示する。
古典的Atariゲームの視覚状態表現をリッチテキスト記述に変換することで、TextAtariは、自然言語処理でシーケンシャルな意思決定をブリッジする挑戦的なテストベッドを生成する。
ベンチマークには、さまざまな複雑さ、アクションスペース、計画的地平線を持つ100近い異なるタスクが含まれており、いずれも教師なしの表現学習フレームワーク(AtariARI)を通じてテキストとしてレンダリングされている。
我々は,3つのエージェントフレームワーク(ゼロショット,少数ショットチェーン,リフレクション推論)に対して,3つのオープンソース大規模言語モデル(Qwen2.5-7B,Gemma-7B,Llama3.1-8B)を評価し,これらの長期的課題において,異なる形式の事前知識がパフォーマンスに与える影響を評価する。
4つのシナリオ-ベーシック、難解、マニュアル強化、参照ベース-は、意味理解、指示理解、専門家による意思決定への影響を調査する。
この結果から,言語エージェントと人間プレイヤーの広範な計画課題における大きなパフォーマンスギャップが明らかとなり,シーケンシャルな推論,状態追跡,数万ステップにわたる戦略的計画の課題が浮き彫りになった。
TextAtariは、標準化された評価プロトコル、ベースライン実装、言語モデルと計画の交わりで研究を進めるためのフレームワークを提供する。
私たちのコードはhttps://github.com/Lww007/Text-Atari-Agentsで利用可能です。
関連論文リスト
- Text-to-Decision Agent: Offline Meta-Reinforcement Learning from Natural Language Supervision [36.643102023506614]
オフラインメタRLは通常、高品質なサンプルやウォームアップ探索からタスク信念を推測することで一般化に取り組む。
textbfText-to-textbfDecision textbfAgent (textbfT2DA)を提案する。
論文 参考訳(メタデータ) (2025-04-21T12:00:20Z) - IndicSTR12: A Dataset for Indic Scene Text Recognition [33.194567434881314]
本稿では、インドにおける最大かつ最も包括的な実データセットであるIndicSTR12を提案し、12の主要言語でのSTRパフォーマンスをベンチマークする。
提案されたデータセットのサイズと複雑さは、既存のラテン系同時代のデータセットに匹敵するものである。
データセットには、様々な自然のシーンから集められた27000以上のワードイメージが含まれており、各言語に1000以上のワードイメージがある。
論文 参考訳(メタデータ) (2024-03-12T18:14:48Z) - Multi-level Contrastive Learning for Script-based Character
Understanding [14.341307979533871]
文字の個人性やアイデンティティを発話から学習することを目的としたスクリプトにおける文字理解のシナリオに取り組む。
キャラクタのグローバル情報をきめ細かな方法でキャプチャするマルチレベルコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T02:40:52Z) - Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive Instruction-Tuning Benchmark for Speech [107.81472531864195]
テキスト言語モデルは、よく整形された命令が与えられたときに、目に見えないタスクに一般化する際、顕著なゼロショット能力を示している。
ゼロショット方式で複数のタスクを実行するための命令チューニングを活用できるユニバーサル音声モデルを構築するためのベンチマークであるDynamic-SUPERBを提案する。
論文 参考訳(メタデータ) (2023-09-18T06:43:30Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Knowledge-enhanced Agents for Interactive Text Games [16.055119735473017]
テキストベースのゲームにおいてエージェントの機能的接地を改善するための知識注入フレームワークを提案する。
学習に基づくエージェントに注入するドメイン知識の2つの形態について考察する。
我々のフレームワークは、強化学習エージェントと言語モデルエージェントの2つの代表的なモデルクラスをサポートしている。
論文 参考訳(メタデータ) (2023-05-08T23:31:39Z) - Deep Reinforcement Learning with Stacked Hierarchical Attention for
Text-based Games [64.11746320061965]
自然言語の文脈におけるインタラクティブなシミュレーションであるテキストベースゲームの強化学習について検討する。
エージェントの動作が解釈可能な推論手順によって生成され、支援されるように、意思決定のための知識グラフを用いた明示的な推論を行うことを目指している。
提案手法を多数の人為的ベンチマークゲームで広範囲に評価し,本手法が既存のテキストベースエージェントよりも優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2020-10-22T12:40:22Z) - Interactive Fiction Game Playing as Multi-Paragraph Reading
Comprehension with Reinforcement Learning [94.50608198582636]
対話型フィクション(IF)ゲームと実際の自然言語テキストは、言語理解技術に対する新たな自然な評価を提供する。
IFゲーム解決の新たな視点を捉え,MPRC(Multi-Passage Reading)タスクとして再フォーマットする。
論文 参考訳(メタデータ) (2020-10-05T23:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。