論文の概要: TALES: Text Adventure Learning Environment Suite
- arxiv url: http://arxiv.org/abs/2504.14128v4
- Date: Thu, 24 Apr 2025 02:50:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.677894
- Title: TALES: Text Adventure Learning Environment Suite
- Title(参考訳): TALES: テキストアドベンチャー学習環境スイート
- Authors: Christopher Zhang Cui, Xingdi Yuan, Ziang Xiao, Prithviraj Ammanabrolu, Marc-Alexandre Côté,
- Abstract要約: 推論は、LLM(Large Language Models)が世界と対話するための重要なスキルである。
本稿では,多種多様な推論能力に挑戦し,評価するために設計された,多種多様な合成・人文テキストアドベンチャーゲームであるTALESを紹介する。
シンセサイザーゲームで目覚ましいショーがあったにもかかわらず、トップのLSM駆動エージェントでさえ、人間の楽しみのために設計されたゲームで15%を達成できなかった。
- 参考スコア(独自算出の注目度): 28.997169350434795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning is an essential skill to enable Large Language Models (LLMs) to interact with the world. As tasks become more complex, they demand increasingly sophisticated and diverse reasoning capabilities for sequential decision-making, requiring structured reasoning over the context history to determine the next best action. We introduce TALES, a diverse collection of synthetic and human-written text-adventure games designed to challenge and evaluate diverse reasoning capabilities. We present results over a range of LLMs, open- and closed-weights, performing a qualitative analysis on the top performing models. Despite an impressive showing on synthetic games, even the top LLM-driven agents fail to achieve 15% on games designed for human enjoyment. Code and visualization of the experiments can be found at https://microsoft.github.io/tale-suite.
- Abstract(参考訳): 推論は、LLM(Large Language Models)が世界と対話するための重要なスキルである。
タスクが複雑化するにつれて、シーケンシャルな意思決定のための洗練され多様な推論能力が要求されるようになり、次の最良のアクションを決定するためには、コンテキスト履歴に関する構造化された推論が必要である。
本稿では,多種多様な推論能力に挑戦し,評価するために設計された,多種多様な合成・人文テキストアドベンチャーゲームであるTALESを紹介する。
我々は,LLM,オープン・アンド・クローズド・ウェイトを対象とし,トップパフォーマンスモデルに対する定性解析を行った。
シンセサイザーゲームで目覚ましいショーがあったにもかかわらず、トップのLSM駆動エージェントでさえ、人間の楽しみのために設計されたゲームで15%を達成できなかった。
実験のコードと視覚化はhttps://microsoft.github.io/tale-suite.comで見ることができる。
関連論文リスト
- Beyond Outcomes: Transparent Assessment of LLM Reasoning in Games [54.49589494014147]
GAMEBoTは、大規模言語モデルの厳格な評価のために設計されたゲームアリーナである。
我々は,8つのゲームにまたがる17の卓越したLSMをベンチマークし,様々な戦略能力とゲーム特性について検討した。
以上の結果から,LDMに詳細なCoTプロンプトが付与されている場合でも,GAMEBoTは大きな課題となることが示唆された。
論文 参考訳(メタデータ) (2024-12-18T08:32:53Z) - GameArena: Evaluating LLM Reasoning through Live Computer Games [25.415321902887598]
我々は,人間との対話型ゲームプレイを通じて,大規模言語モデル(LLM)推論能力を評価するベンチマークであるGameArenaを紹介する。
GameArenaは3つのゲームからなり、参加者を楽しませたりエンゲージメントしたりしながら、特定の推論能力(演能的推論や帰納的推論など)をテストする。
我々は2000以上のゲームセッションを収集し、5つの最先端LCMに対して様々な推論能力の詳細な評価を行う。
論文 参考訳(メタデータ) (2024-12-09T11:22:59Z) - Mastering Board Games by External and Internal Planning with Language Models [30.782334791241556]
探索に基づくプランニングにより,大規模言語モデルによるゲームプレイ能力の大幅な向上が期待できることを示す。
外部探索では,モンテカルロ木探索のロールアウトと評価を外部ゲームエンジンに呼び出しずにガイドし,内部探索では,探索の線形化木と最終的な選択をインコンテキストで生成するように訓練する。
提案手法は,探索とドメイン知識を組み合わせることで,ボードゲームに特化せず,より汎用的な応用を示唆するものである。
論文 参考訳(メタデータ) (2024-12-02T18:56:51Z) - Evaluating Creativity and Deception in Large Language Models: A Simulation Framework for Multi-Agent Balderdash [6.65572931991284]
大きな言語モデル(LLM)は複雑なタスクや対話的な環境において印象的な機能を示している。
本稿では, LLMの創造性と論理的推論の両面を評価するために, Balderdash を利用したシミュレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-15T18:42:48Z) - AMONGAGENTS: Evaluating Large Language Models in the Interactive Text-Based Social Deduction Game [12.384945632524424]
本稿では,シミュレーション環境における人間行動のプロキシの作成に焦点をあてる。
我々の研究は、最先端の大規模言語モデル(LLM)がゲームルールを効果的に把握し、現在の状況に基づいて意思決定できることを示した。
論文 参考訳(メタデータ) (2024-07-23T14:34:38Z) - GameEval: Evaluating LLMs on Conversational Games [93.40433639746331]
大規模言語モデル(LLM)を評価する新しいアプローチであるGameEvalを提案する。
GameEvalはLSMをゲームプレイヤーとして扱い、様々な形式の会話を起動することで達成した特定の目標にそれぞれ異なる役割を割り当てる。
我々は,GameEvalが様々なLLMの能力を効果的に差別化することができ,複雑な問題を解決するための統合能力を総合的に評価できることを示した。
論文 参考訳(メタデータ) (2023-08-19T14:33:40Z) - SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z) - JECC: Commonsense Reasoning Tasks Derived from Interactive Fictions [75.42526766746515]
本稿では,人間のインタラクティブ・フィクション(IF)ゲームプレイ・ウォークスルーに基づく新しいコモンセンス推論データセットを提案する。
本データセットは,事実知識ではなく,機能的コモンセンス知識ルールの評価に重点を置いている。
実験の結果、導入したデータセットは、以前の機械読影モデルと新しい大規模言語モデルに難題であることが示されている。
論文 参考訳(メタデータ) (2022-10-18T19:20:53Z) - Inner Monologue: Embodied Reasoning through Planning with Language
Models [81.07216635735571]
大規模言語モデル(LLM)は自然言語処理以外の領域に適用できる。
具体化された環境でのLLMの計画には、何をすべきかだけでなく、どのように、いつ行うべきかを考える必要がある。
環境フィードバックを活用することで、LLMはロボット制御シナリオにおいてよりリッチな処理と計画を行うことができる内部モノローグを形成することができる。
論文 参考訳(メタデータ) (2022-07-12T15:20:48Z) - Interactive Fiction Game Playing as Multi-Paragraph Reading
Comprehension with Reinforcement Learning [94.50608198582636]
対話型フィクション(IF)ゲームと実際の自然言語テキストは、言語理解技術に対する新たな自然な評価を提供する。
IFゲーム解決の新たな視点を捉え,MPRC(Multi-Passage Reading)タスクとして再フォーマットする。
論文 参考訳(メタデータ) (2020-10-05T23:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。