論文の概要: SmartPlay : A Benchmark for LLMs as Intelligent Agents
- arxiv url: http://arxiv.org/abs/2310.01557v2
- Date: Wed, 4 Oct 2023 04:10:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 10:16:51.583011
- Title: SmartPlay : A Benchmark for LLMs as Intelligent Agents
- Title(参考訳): SmartPlay : インテリジェントエージェントとしてのLCMのベンチマーク
- Authors: Yue Wu, Xuan Tang, Tom M. Mitchell, Yuanzhi Li
- Abstract要約: SmartPlayはRock-Paper-Scissors, Tower of Hanoi, Minecraftなど,6つの異なるゲームで構成されている。
各ゲームは知的LLMエージェントの9つの重要な能力のサブセットに挑戦する。
テストには、オブジェクト依存による推論、事前計画、空間的推論、歴史からの学習、理解が含まれる。
- 参考スコア(独自算出の注目度): 49.99723940007293
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent large language models (LLMs) have demonstrated great potential toward
intelligent agents and next-gen automation, but there currently lacks a
systematic benchmark for evaluating LLMs' abilities as agents. We introduce
SmartPlay: both a challenging benchmark and a methodology for evaluating LLMs
as agents. SmartPlay consists of 6 different games, including
Rock-Paper-Scissors, Tower of Hanoi, Minecraft. Each game features a unique
setting, providing up to 20 evaluation settings and infinite environment
variations. Each game in SmartPlay uniquely challenges a subset of 9 important
capabilities of an intelligent LLM agent, including reasoning with object
dependencies, planning ahead, spatial reasoning, learning from history, and
understanding randomness. The distinction between the set of capabilities each
game test allows us to analyze each capability separately. SmartPlay serves not
only as a rigorous testing ground for evaluating the overall performance of LLM
agents but also as a road-map for identifying gaps in current methodologies. We
release our benchmark at github.com/microsoft/SmartPlay
- Abstract(参考訳): 近年の大規模言語モデル(LLM)は、インテリジェントエージェントや次世代自動化に対して大きな可能性を示しているが、LLMのエージェントとしての能力を評価するための体系的なベンチマークは存在しない。
SmartPlay: LLMをエージェントとして評価するための、挑戦的なベンチマークと方法論の両方を紹介します。
SmartPlayはRock-Paper-Scissors, Tower of Hanoi, Minecraftなど6種類のゲームで構成されている。
各ゲームには独自の設定があり、最大20評価設定と無限環境のバリエーションを提供する。
smartplayの各ゲームは、オブジェクト依存の推論、計画、空間的推論、歴史からの学習、ランダム性理解を含む、インテリジェントなllmエージェントの9つの重要な機能のサブセットに独特に挑戦する。
各ゲームテストの能力セットを区別することで、各能力を別々に分析することができます。
SmartPlayは、LLMエージェントの全体的なパフォーマンスを評価するための厳格なテスト基盤としてだけでなく、現在の方法論におけるギャップを識別するためのロードマップとしても機能する。
ベンチマークはgithub.com/microsoft/smartplayでリリースします。
関連論文リスト
- How Far Are We on the Decision-Making of LLMs? Evaluating LLMs' Gaming Ability in Multi-Agent Environments [83.78240828340681]
本研究では,ゲーム理論のレンズによる大規模言語モデルの意思決定能力について検討する。
2人以上のエージェントが同時に参加するゲームに特化しています。
我々は,8つの古典的マルチエージェントゲームを含むGAMA-Benchというフレームワークを紹介した。
論文 参考訳(メタデータ) (2024-03-18T14:04:47Z) - Understanding the Weakness of Large Language Model Agents within a
Complex Android Environment [21.278266207772756]
大規模言語モデル(LLM)は、ブラウザやゲームのようなドメイン固有のソフトウェア内で複雑なタスクを実行するインテリジェントエージェントに権限を与えている。
LLMはオペレーティングシステムのような汎用ソフトウェアシステムに適用する際の3つの主要な課題に直面している。
これらの課題は、現代的なオペレーティングシステム上でLLMエージェントを評価するために設計された環境とベンチマークであるAndroidArenaを動機付けている。
論文 参考訳(メタデータ) (2024-02-09T18:19:25Z) - Deciphering Digital Detectives: Understanding LLM Behaviors and
Capabilities in Multi-Agent Mystery Games [26.07074182316433]
本稿では,Jubenshaに特化している最初のデータセットについて紹介する。
我々の研究は、LSMを使ったユニークなマルチエージェントインタラクションフレームワークも提供し、AIエージェントがこのゲームに自律的に関与できるようにする。
これらのAIエージェントのゲーム性能を評価するために,ケース情報と推論スキルの熟達度を測定する新しい手法を開発した。
論文 参考訳(メタデータ) (2023-12-01T17:33:57Z) - LLM-Deliberation: Evaluating LLMs with Interactive Multi-Agent
Negotiation Games [53.927705340086334]
本稿では,大規模言語モデルのための新たな評価フレームワークとして交渉ゲームを提案する。
我々は、エージェントが交渉し、常に成功する取引に到達できることを示します。
これらのゲームは、グリーディと敵プレイヤーの存在下でのエージェント間の相互作用のダイナミクスなど、他の重要な側面を評価するのに役立つ。
論文 参考訳(メタデータ) (2023-09-29T13:33:06Z) - AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。
我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z) - Brain in a Vat: On Missing Pieces Towards Artificial General
Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。
実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。
我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文 参考訳(メタデータ) (2023-07-07T13:58:16Z) - SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z) - Clembench: Using Game Play to Evaluate Chat-Optimized Language Models as
Conversational Agents [20.202525145391093]
近年の研究では,「言語理解エージェント」の体系的評価手法が提案されている。
制約のあるゲームライクな設定に公開することで、大規模言語モデルを有意義に評価できるだろうか?
概念実証として,現在のチャット最適化LDMがゲームプレイの指示に従うことができる範囲において,5つのインタラクション設定について検討する。
論文 参考訳(メタデータ) (2023-05-22T19:56:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。