論文の概要: TextArena
- arxiv url: http://arxiv.org/abs/2504.11442v1
- Date: Tue, 15 Apr 2025 17:55:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:12:16.267311
- Title: TextArena
- Title(参考訳): TextArena
- Authors: Leon Guertler, Bobby Cheng, Simon Yu, Bo Liu, Leshem Choshen, Cheston Tan,
- Abstract要約: TextArenaは、大規模言語モデル(LLM)におけるエージェント動作のトレーニングと評価のための競合するテキストベースのゲームのオープンソースコレクションである。
57以上のユニークな環境(シングルプレイヤ、ツープレイヤ、マルチプレイヤなど)にまたがっており、オンラインプレイシステムによるモデル機能の評価が容易である。
TextArenaは、新しいゲームの追加、フレームワークの適応、モデルのテスト、モデルとの対戦、トレーニングモデルの容易さを強調している。
- 参考スコア(独自算出の注目度): 13.269790016084178
- License:
- Abstract: TextArena is an open-source collection of competitive text-based games for training and evaluation of agentic behavior in Large Language Models (LLMs). It spans 57+ unique environments (including single-player, two-player, and multi-player setups) and allows for easy evaluation of model capabilities via an online-play system (against humans and other submitted models) with real-time TrueSkill scores. Traditional benchmarks rarely assess dynamic social skills such as negotiation, theory of mind, and deception, creating a gap that TextArena addresses. Designed with research, community and extensibility in mind, TextArena emphasizes ease of adding new games, adapting the framework, testing models, playing against the models, and training models. Detailed documentation of environments, games, leaderboard, and examples are available on https://github.com/LeonGuertler/TextArena and https://www.textarena.ai/.
- Abstract(参考訳): TextArenaは、大規模言語モデル(LLM)におけるエージェント動作のトレーニングと評価のための、競争力のあるテキストベースのゲームのオープンソースコレクションである。
57以上のユニークな環境(シングルプレイヤ、ツープレイヤ、マルチプレイヤのセットアップを含む)にまたがっており、リアルタイムのTrueSkillスコアを備えたオンラインプレイシステム(人間や他の提出されたモデルも含む)を通じて、モデル機能を簡単に評価することができる。
従来のベンチマークでは、交渉、心の理論、詐欺などの動的な社会的スキルを評価することはめったになく、TextArenaが対処するギャップを生み出す。
TextArenaは研究、コミュニティ、拡張性を念頭に設計され、新しいゲームの追加、フレームワークの適応、モデルのテスト、モデルとの対戦、モデルのトレーニングの容易さを強調している。
環境、ゲーム、リーダーボード、サンプルの詳細はhttps://github.com/LeonGuertler/TextArenaとhttps://www.textarena.ai/で確認できる。
関連論文リスト
- ScriptWorld: Text Based Environment For Learning Procedural Knowledge [2.0491741153610334]
ScriptWorldは、現実世界の日々の雑用についてエージェントに教えるテキストベースの環境である。
10日間の活動にゲーム環境を提供し,提案環境の詳細な分析を行う。
RLエージェントの事前学習言語モデルから得られた特徴を利用する。
論文 参考訳(メタデータ) (2023-07-08T05:43:03Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Promptable Game Models: Text-Guided Game Simulation via Masked Diffusion
Models [68.85478477006178]
ニューラルビデオゲームシミュレータのためのPGM(Promptable Game Model)を提案する。
ユーザーは高レベルのアクションシーケンスと低レベルのアクションシーケンスでゲームを実行することができる。
私たちのPGMは、エージェントの目標をプロンプトの形で指定することで、ディレクターのモードをアンロックします。
提案手法は,既存のニューラルビデオゲームシミュレータのレンダリング品質を著しく上回り,現在の最先端の能力を超えたアプリケーションをアンロックする。
論文 参考訳(メタデータ) (2023-03-23T17:43:17Z) - Infusing Commonsense World Models with Graph Knowledge [89.27044249858332]
オープンワールドテキストアドベンチャーゲームにおける物語生成の設定について検討する。
基礎となるゲーム状態のグラフ表現は、接地グラフ表現と自然言語記述とアクションの両方を消費し出力するモデルを訓練するために使用することができる。
論文 参考訳(メタデータ) (2023-01-13T19:58:27Z) - Immersive Text Game and Personality Classification [1.9171404264679484]
没入型テキストゲームでは、プレイヤーはストーリーとキャラクターを選択し、没入型で他のキャラクターと対話することができる。
このゲームはテキスト生成言語モデル、情報抽出モデル、コモンセンス推論モデル、心理学評価モデルなど、いくつかの最新モデルに基づいている。
論文 参考訳(メタデータ) (2022-03-20T18:37:03Z) - Pre-trained Language Models as Prior Knowledge for Playing Text-based
Games [2.423547527175808]
本稿では,LMフレームワークを用いたシンプルなRLを提案することにより,エージェントの意味的理解を改善する。
我々は,この人気ゲームであるZolk1において,我々のモデルがどのように既存のエージェントよりも優れているかを実証するために,我々のフレームワークの詳細な研究を行う。
提案手法は,テキストゲームの他のセットにおける最先端モデルに対して,コンパレントに機能する。
論文 参考訳(メタデータ) (2021-07-18T10:28:48Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - Keep CALM and Explore: Language Models for Action Generation in
Text-based Games [27.00685301984832]
本研究では,各ゲーム状態におけるアクション候補のコンパクトなセットを生成するために,文脈行動言語モデル(CALM)を提案する。
我々はCALMと強化学習エージェントを組み合わせることで、生成したアクション候補を再ランクし、ゲーム内報酬を最大化する。
論文 参考訳(メタデータ) (2020-10-06T17:36:29Z) - Interactive Fiction Game Playing as Multi-Paragraph Reading
Comprehension with Reinforcement Learning [94.50608198582636]
対話型フィクション(IF)ゲームと実際の自然言語テキストは、言語理解技術に対する新たな自然な評価を提供する。
IFゲーム解決の新たな視点を捉え,MPRC(Multi-Passage Reading)タスクとして再フォーマットする。
論文 参考訳(メタデータ) (2020-10-05T23:09:20Z) - Learning Dynamic Belief Graphs to Generalize on Text-Based Games [55.59741414135887]
テキストベースのゲームをプレイするには、自然言語処理とシーケンシャルな意思決定のスキルが必要である。
本研究では,原文からエンドツーエンドに学習したグラフ構造化表現を用いて,エージェントがテキストベースのゲームでどのように計画・一般化できるかを検討する。
論文 参考訳(メタデータ) (2020-02-21T04:38:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。