論文の概要: Put Your Money Where Your Mouth Is: Evaluating Strategic Planning and
Execution of LLM Agents in an Auction Arena
- arxiv url: http://arxiv.org/abs/2310.05746v1
- Date: Mon, 9 Oct 2023 14:22:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 09:09:37.375353
- Title: Put Your Money Where Your Mouth Is: Evaluating Strategic Planning and
Execution of LLM Agents in an Auction Arena
- Title(参考訳): お金はあなたの口の中に置け - 競売場における戦略計画と評価とllmエージェントの実行
- Authors: Jiangjie Chen, Siyu Yuan, Rong Ye, Bodhisattwa Prasad Majumder, Kyle
Richardson
- Abstract要約: オークション内でのLarge Language Models(LLM)を評価するための新しいシミュレーション環境であるAucArenaを紹介する。
我々は、最先端のLCMを入札エージェントとして使用して、いくつかの制御されたシミュレーションを行う。
簡単なプロンプトによって,LLMはオークションに効果的に関与するために必要なスキルの多くを実演していることがわかった。
- 参考スコア(独自算出の注目度): 27.750045823198928
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Can Large Language Models (LLMs) simulate human behavior in complex
environments? LLMs have recently been shown to exhibit advanced reasoning
skills but much of NLP evaluation still relies on static benchmarks. Answering
this requires evaluation environments that probe strategic reasoning in
competitive, dynamic scenarios that involve long-term planning. We introduce
AucArena, a novel simulation environment for evaluating LLMs within auctions, a
setting chosen for being highly unpredictable and involving many skills related
to resource and risk management, while also being easy to evaluate. We conduct
several controlled simulations using state-of-the-art LLMs as bidding agents.
We find that through simple prompting, LLMs do indeed demonstrate many of the
skills needed for effectively engaging in auctions (e.g., managing budget,
adhering to long-term goals and priorities), skills that we find can be
sharpened by explicitly encouraging models to be adaptive and observe
strategies in past auctions. These results are significant as they show the
potential of using LLM agents to model intricate social dynamics, especially in
competitive settings. However, we also observe considerable variability in the
capabilities of individual LLMs. Notably, even our most advanced models (GPT-4)
are occasionally surpassed by heuristic baselines and human agents,
highlighting the potential for further improvements in the design of LLM agents
and the important role that our simulation environment can play in further
testing and refining agent architectures.
- Abstract(参考訳): 大規模言語モデル(llm)は複雑な環境で人間の行動をシミュレートできるか?
LLMは近年、高度な推論技術を示すことが示されているが、NLP評価の多くは静的ベンチマークに依存している。
これを答えるには、長期計画を含む競争的で動的なシナリオにおける戦略的推論を調査する評価環境が必要である。
AucArenaはオークション内でLLMを評価するための新しいシミュレーション環境であり、非常に予測不可能で、資源管理やリスク管理に関わるスキルが数多く含まれており、評価も容易である。
我々は最先端のLCMを入札エージェントとしていくつかの制御シミュレーションを行う。
簡単なプロンプトによって、LLMは実際にオークションに効果的に関与するために必要なスキル(例えば、予算の管理、長期的な目標と優先順位の順守)の多くを実演し、過去のオークションにおいてモデルに適応し、戦略を観察することを明示的に奨励することで、そのスキルを磨くことができることがわかった。
これらの結果は、特に競争環境において、複雑な社会的ダイナミクスをモデル化するためにLLMエージェントを使用することの可能性を示す。
しかし, 個々のLDMの能力の変動も観察できる。
特に、我々の最も先進的なモデル(GPT-4)でさえ時折ヒューリスティックなベースラインとヒューマンエージェントに抜かれ、LLMエージェントの設計のさらなる改善の可能性と、エージェントアーキテクチャのさらなるテストおよび精錬においてシミュレーション環境が果たす重要な役割を強調している。
関連論文リスト
- Cooperate or Collapse: Emergence of Sustainability Behaviors in a Society of LLM Agents [101.17919953243107]
本稿では,大規模言語モデル(LLM)における戦略的相互作用と協調的意思決定を研究するためのシミュレーションプラットフォームであるGovSimについて紹介する。
我々は,AIエージェント間の資源共有のダイナミクスを探求し,倫理的考察,戦略的計画,交渉スキルの重要性を強調した。
GovSimでは、15の試験されたLLMのうち、持続可能な結果を達成することができたのはわずか2つであり、モデルが共有リソースを管理する能力に重大なギャップがあることを示唆している。
論文 参考訳(メタデータ) (2024-04-25T15:59:16Z) - FedEval-LLM: Federated Evaluation of Large Language Models on Downstream Tasks with Collective Wisdom [19.104850413126066]
大規模言語モデル(LLM)の協調学習のための有望なソリューションとして、フェデレートラーニング(FL)が登場した。
ラベル付きテストセットと類似度に基づくメトリクスに依存する従来の評価手法は、許容できる答えのサブセットのみをカバーする。
我々は、ラベル付きテストセットや外部ツールに依存することなく、下流タスクにおけるLCMの信頼性の高い性能測定を提供するFedEval-LLMを提案する。
論文 参考訳(メタデータ) (2024-04-18T15:46:26Z) - Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [62.954890888281206]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。
本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。
これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文 参考訳(メタデータ) (2024-03-22T14:47:35Z) - LLMArena: Assessing Capabilities of Large Language Models in Dynamic
Multi-Agent Environments [35.926581910260076]
マルチエージェント動的環境における大規模言語モデルの能力を評価するためのフレームワークであるLLMArenaを紹介する。
LLArenaはTrueskillスコアを使用して、空間推論、戦略的計画、数値推論、リスク評価、コミュニケーション、相手モデリング、チームコラボレーションなど、LLMエージェントの重要な能力を評価する。
我々は、LLMの規模や種類によって、広範囲にわたる実験と人的評価を行い、LLMは、完全に自律的なエージェントへと発展する上で、依然として重要な道のりを歩んでいることを示す。
論文 参考訳(メタデータ) (2024-02-26T11:31:48Z) - K-Level Reasoning with Large Language Models [80.13817747270029]
急速に発展する環境における意思決定のための大規模言語モデル(LLM)の動的推論機能について検討する。
実世界の動的意思決定の複雑さを反映した2つのゲーム理論に基づくパイロットチャレンジを導入する。
これらの課題は明確に定義されており、LLMの動的推論能力の明確で制御可能で正確な評価を可能にする。
論文 参考訳(メタデータ) (2024-02-02T16:07:05Z) - Can Large Language Models be Trusted for Evaluation? Scalable
Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.06294042304415]
エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。
フレームワークのコードをGitHubで公開しています。
論文 参考訳(メタデータ) (2024-01-30T07:03:32Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - Through the Lens of Core Competency: Survey on Evaluation of Large
Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。
既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。
LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。
この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文 参考訳(メタデータ) (2023-08-15T17:40:34Z) - AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。
我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。