論文の概要: AgentSims: An Open-Source Sandbox for Large Language Model Evaluation
- arxiv url: http://arxiv.org/abs/2308.04026v1
- Date: Tue, 8 Aug 2023 03:59:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 14:16:21.561821
- Title: AgentSims: An Open-Source Sandbox for Large Language Model Evaluation
- Title(参考訳): agentsims: 大きな言語モデル評価のためのオープンソースサンドボックス
- Authors: Jiaju Lin, Haoran Zhao, Aochi Zhang, Yiting Wu, Huqiuyue Ping, Qin
Chen
- Abstract要約: 既存の評価手法は,(1)制約付き評価能力,(2)脆弱なベンチマーク,(3)客観的な指標などの欠点に悩まされている。
LLMエージェントがシミュレーション環境でタスクを完了させるタスクベース評価は、上記の問題を解決するための一対一のソリューションである。
AgentSimsは、あらゆる分野の研究者が興味のある特定の能力をテストするための、使いやすいインフラだ。
- 参考スコア(独自算出の注目度): 9.156652770482268
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With ChatGPT-like large language models (LLM) prevailing in the community,
how to evaluate the ability of LLMs is an open question. Existing evaluation
methods suffer from following shortcomings: (1) constrained evaluation
abilities, (2) vulnerable benchmarks, (3) unobjective metrics. We suggest that
task-based evaluation, where LLM agents complete tasks in a simulated
environment, is a one-for-all solution to solve above problems. We present
AgentSims, an easy-to-use infrastructure for researchers from all disciplines
to test the specific capacities they are interested in. Researchers can build
their evaluation tasks by adding agents and buildings on an interactive GUI or
deploy and test new support mechanisms, i.e. memory, planning and tool-use
systems, by a few lines of codes. Our demo is available at
https://agentsims.com .
- Abstract(参考訳): ChatGPTライクな大規模言語モデル(LLM)がコミュニティで普及しているため、LLMの能力を評価する方法はオープンな問題である。
既存の評価手法では,(1)制約付き評価能力,(2)脆弱なベンチマーク,(3)客観的な指標が不足している。
LLMエージェントがシミュレーション環境でタスクを完了するタスクベース評価は、上記の問題を解決するための一対一のソリューションである。
agentimsは、あらゆる分野の研究者が興味のある特定の能力をテストするための、使いやすいインフラストラクチャです。
研究者は対話的なGUIにエージェントやビルディングを追加するか、メモリ、計画、ツール使用システムといった新しいサポートメカニズムを数行のコードでテストすることで、評価タスクを構築することができる。
デモはhttps://agentsims.comで公開しています。
関連論文リスト
- Understanding the Weakness of Large Language Model Agents within a
Complex Android Environment [21.278266207772756]
大規模言語モデル(LLM)は、ブラウザやゲームのようなドメイン固有のソフトウェア内で複雑なタスクを実行するインテリジェントエージェントに権限を与えている。
LLMはオペレーティングシステムのような汎用ソフトウェアシステムに適用する際の3つの主要な課題に直面している。
これらの課題は、現代的なオペレーティングシステム上でLLMエージェントを評価するために設計された環境とベンチマークであるAndroidArenaを動機付けている。
論文 参考訳(メタデータ) (2024-02-09T18:19:25Z) - A Preliminary Study on Using Large Language Models in Software
Pentesting [2.0551676463612636]
大規模言語モデル(LLM)は、セキュリティタスクを自動化するための有望な可能性を提供すると考えられている。
ソフトウェアペンテスティングにおけるLLMの使用について検討し,ソースコード中のソフトウェアセキュリティ脆弱性を自動的に識別する作業を行う。
論文 参考訳(メタデータ) (2024-01-30T21:42:59Z) - Large Language Model based Multi-Agents: A Survey of Progress and
Challenges [46.857697157523994]
大規模言語モデル(LLM)は、幅広いタスクで大きな成功を収めています。
近年, 1 つの LLM を単一計画や意思決定エージェントとして利用する手法の開発により, 複雑な問題解決や世界シミュレーションにおいて, LLM ベースのマルチエージェントシステムは大きな進歩を遂げている。
論文 参考訳(メタデータ) (2024-01-21T23:36:14Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。
アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。
この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - Benchmarking Large Language Models As AI Research Agents [105.65277755304277]
我々は,AI研究エージェントをベンチマークするMLタスクスイートであるMLAgentBenchを提案する。
我々は, GPT-4をベースとした研究エージェントが, MLAgentBenchの多くのタスクにおいて, 魅力的なMLモデルを構築できることを発見した。
長期計画や幻覚など,LSMをベースとした研究エージェントにとって重要な課題をいくつか挙げる。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z) - AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。
我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z) - Brain in a Vat: On Missing Pieces Towards Artificial General
Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。
実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。
我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文 参考訳(メタデータ) (2023-07-07T13:58:16Z) - Attributed Question Answering: Evaluation and Modeling for Attributed
Large Language Models [68.37431984231338]
大規模言語モデル(LLM)は、直接の監督をほとんど必要とせず、様々なタスクにわたって印象的な結果を示している。
我々は、LLMが生成するテキストの属性に持つ能力は、この設定においてシステム開発者とユーザの両方にとって不可欠であると信じている。
論文 参考訳(メタデータ) (2022-12-15T18:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。