論文の概要: A LLM Benchmark based on the Minecraft Builder Dialog Agent Task
- arxiv url: http://arxiv.org/abs/2407.12734v1
- Date: Wed, 17 Jul 2024 16:52:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 16:16:05.198490
- Title: A LLM Benchmark based on the Minecraft Builder Dialog Agent Task
- Title(参考訳): Minecraftビルダー対話エージェントタスクに基づくLLMベンチマーク
- Authors: Chris Madge, Massimo Poesio,
- Abstract要約: 本研究では,空間的指向性タスクにおけるLLM能力を評価するのに適したLCMベンチマークにMinecraftビルダータスクを適用することを提案する。
このアプローチにより、異なるエージェントの特定の長所や短所を探索し、空間的推論とベクトルベースの数学の挑戦的な領域におけるLLMの能力をテストすることができると信じている。
- 参考スコア(独自算出の注目度): 5.555936227537389
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work we proposing adapting the Minecraft builder task into an LLM benchmark suitable for evaluating LLM ability in spatially orientated tasks, and informing builder agent design. Previous works have proposed corpora with varying complex structures, and human written instructions. We instead attempt to provide a comprehensive synthetic benchmark for testing builder agents over a series of distinct tasks that comprise of common building operations. We believe this approach allows us to probe specific strengths and weaknesses of different agents, and test the ability of LLMs in the challenging area of spatial reasoning and vector based math.
- Abstract(参考訳): 本研究では,空間配向タスクにおけるLLM能力の評価に適したLLMベンチマークにMinecraftビルダタスクを適応させ,ビルダエージェント設計をインフォームする。
それまでの研究では、様々な複雑な構造を持つコーパスや、人間の文章による指示が提案されていた。
代わりに、一般的なビルディング操作からなる一連の異なるタスクに対して、ビルダーエージェントをテストするための総合的な総合的なベンチマークを提供しようとしています。
このアプローチにより、異なるエージェントの特定の長所や短所を探索し、空間的推論とベクトルベースの数学の挑戦的な領域におけるLLMの能力をテストすることができると信じている。
関連論文リスト
- APT: Architectural Planning and Text-to-Blueprint Construction Using Large Language Models for Open-World Agents [8.479128275067742]
本稿では,自律型エージェントによるMinecraftの複雑な構造構築を可能にする,LLM(Large Language Model)駆動のフレームワークを提案する。
連鎖分解とマルチモーダル入力を用いることで、このフレームワークは詳細なアーキテクチャレイアウトと青写真を生成する。
本エージェントは, メモリとリフレクションモジュールの両方を組み込んで, 生涯学習, 適応的洗練, エラー訂正を容易にする。
論文 参考訳(メタデータ) (2024-11-26T09:31:28Z) - WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。
WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-07-07T07:15:49Z) - Retrieval-Augmented Code Generation for Situated Action Generation: A Case Study on Minecraft [18.256529559741075]
Minecraft Collaborative Building Taskでは、2人のプレーヤーが協力する。 アーキテクト(A)がビルダー(B)に指示を与え、3Dブロックを使って特定の構造を組み立てる。
本研究では,大規模言語モデル (LLM) を用いて,ビルダが行う動作の順序を予測する。
論文 参考訳(メタデータ) (2024-06-25T13:43:24Z) - A Survey of Useful LLM Evaluation [20.048914787813263]
2段階フレームワーク:コア能力からエージェントへ」
コア能力」の段階では, LLMの推論能力, 社会的影響, ドメイン知識について議論した。
エージェントの段階では, LLMエージェントアプリケーションの動作, 計画, ツール学習の具体化を実演した。
論文 参考訳(メタデータ) (2024-06-03T02:20:03Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - Large Language Models as Minecraft Agents [6.563602649100242]
本研究では,インテリジェンスエージェントとして機能する上で,LLM(Large Language Models)の利用について検討する。
明確化に関する質問を導入し、改善の課題と機会について検討する。
論文 参考訳(メタデータ) (2024-02-13T11:37:30Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - BOLAA: Benchmarking and Orchestrating LLM-augmented Autonomous Agents [103.28404907655542]
大規模言語モデル(LLM)は、自律エージェント(LAA)の新たな探索に繋がった。
本稿では,エージェントアーキテクチャとLLMバックボーンの両方の観点から,LAAの包括的な比較を行う。
我々は、複数のLAAを編成する新しい戦略を提案し、各LAAは、複数のエージェント間の通信を管理する制御器であるテキストティティ(textiti.e. BOLAA)に焦点をあてる。
論文 参考訳(メタデータ) (2023-08-11T06:37:54Z) - AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。
我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z) - TPTU: Large Language Model-based AI Agents for Task Planning and Tool
Usage [28.554981886052953]
大規模言語モデル(LLM)は、様々な現実世界のアプリケーションのための強力なツールとして登場した。
LLMの本質的な生成能力は、その長所にもかかわらず、複雑なタスクを扱うには不十分である。
本稿では,LLMベースのAIエージェントに適した構造化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-07T09:22:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。