論文の概要: Put Your Money Where Your Mouth Is: Evaluating Strategic Planning and
Execution of LLM Agents in an Auction Arena
- arxiv url: http://arxiv.org/abs/2310.05746v1
- Date: Mon, 9 Oct 2023 14:22:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 09:09:37.375353
- Title: Put Your Money Where Your Mouth Is: Evaluating Strategic Planning and
Execution of LLM Agents in an Auction Arena
- Title(参考訳): お金はあなたの口の中に置け - 競売場における戦略計画と評価とllmエージェントの実行
- Authors: Jiangjie Chen, Siyu Yuan, Rong Ye, Bodhisattwa Prasad Majumder, Kyle
Richardson
- Abstract要約: オークション内でのLarge Language Models(LLM)を評価するための新しいシミュレーション環境であるAucArenaを紹介する。
我々は、最先端のLCMを入札エージェントとして使用して、いくつかの制御されたシミュレーションを行う。
簡単なプロンプトによって,LLMはオークションに効果的に関与するために必要なスキルの多くを実演していることがわかった。
- 参考スコア(独自算出の注目度): 27.750045823198928
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Can Large Language Models (LLMs) simulate human behavior in complex
environments? LLMs have recently been shown to exhibit advanced reasoning
skills but much of NLP evaluation still relies on static benchmarks. Answering
this requires evaluation environments that probe strategic reasoning in
competitive, dynamic scenarios that involve long-term planning. We introduce
AucArena, a novel simulation environment for evaluating LLMs within auctions, a
setting chosen for being highly unpredictable and involving many skills related
to resource and risk management, while also being easy to evaluate. We conduct
several controlled simulations using state-of-the-art LLMs as bidding agents.
We find that through simple prompting, LLMs do indeed demonstrate many of the
skills needed for effectively engaging in auctions (e.g., managing budget,
adhering to long-term goals and priorities), skills that we find can be
sharpened by explicitly encouraging models to be adaptive and observe
strategies in past auctions. These results are significant as they show the
potential of using LLM agents to model intricate social dynamics, especially in
competitive settings. However, we also observe considerable variability in the
capabilities of individual LLMs. Notably, even our most advanced models (GPT-4)
are occasionally surpassed by heuristic baselines and human agents,
highlighting the potential for further improvements in the design of LLM agents
and the important role that our simulation environment can play in further
testing and refining agent architectures.
- Abstract(参考訳): 大規模言語モデル(llm)は複雑な環境で人間の行動をシミュレートできるか?
LLMは近年、高度な推論技術を示すことが示されているが、NLP評価の多くは静的ベンチマークに依存している。
これを答えるには、長期計画を含む競争的で動的なシナリオにおける戦略的推論を調査する評価環境が必要である。
AucArenaはオークション内でLLMを評価するための新しいシミュレーション環境であり、非常に予測不可能で、資源管理やリスク管理に関わるスキルが数多く含まれており、評価も容易である。
我々は最先端のLCMを入札エージェントとしていくつかの制御シミュレーションを行う。
簡単なプロンプトによって、LLMは実際にオークションに効果的に関与するために必要なスキル(例えば、予算の管理、長期的な目標と優先順位の順守)の多くを実演し、過去のオークションにおいてモデルに適応し、戦略を観察することを明示的に奨励することで、そのスキルを磨くことができることがわかった。
これらの結果は、特に競争環境において、複雑な社会的ダイナミクスをモデル化するためにLLMエージェントを使用することの可能性を示す。
しかし, 個々のLDMの能力の変動も観察できる。
特に、我々の最も先進的なモデル(GPT-4)でさえ時折ヒューリスティックなベースラインとヒューマンエージェントに抜かれ、LLMエージェントの設計のさらなる改善の可能性と、エージェントアーキテクチャのさらなるテストおよび精錬においてシミュレーション環境が果たす重要な役割を強調している。
関連論文リスト
- EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - A Survey of Useful LLM Evaluation [20.048914787813263]
2段階フレームワーク:コア能力からエージェントへ」
コア能力」の段階では, LLMの推論能力, 社会的影響, ドメイン知識について議論した。
エージェントの段階では, LLMエージェントアプリケーションの動作, 計画, ツール学習の具体化を実演した。
論文 参考訳(メタデータ) (2024-06-03T02:20:03Z) - STRIDE: A Tool-Assisted LLM Agent Framework for Strategic and Interactive Decision-Making [43.734386326024016]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしており、言語能力と推論能力が顕著である。
本稿では,その戦略的意思決定能力を高めるため,メモリと特殊なツールを備えた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-25T23:25:10Z) - Can Large Language Models be Trusted for Evaluation? Scalable
Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.06294042304415]
エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。
フレームワークのコードをGitHubで公開しています。
論文 参考訳(メタデータ) (2024-01-30T07:03:32Z) - Through the Lens of Core Competency: Survey on Evaluation of Large
Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。
既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。
LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。
この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文 参考訳(メタデータ) (2023-08-15T17:40:34Z) - AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。
我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。