Fugu-MT 論文翻訳(概要): Put Your Money Where Your Mouth Is: Evaluating Strategic Planning and Execution of LLM Agents in an Auction Arena

論文の概要: Put Your Money Where Your Mouth Is: Evaluating Strategic Planning and Execution of LLM Agents in an Auction Arena

arxiv url: http://arxiv.org/abs/2310.05746v1
Date: Mon, 9 Oct 2023 14:22:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-11 09:09:37.375353
Title: Put Your Money Where Your Mouth Is: Evaluating Strategic Planning and Execution of LLM Agents in an Auction Arena
Title（参考訳）: お金はあなたの口の中に置け - 競売場における戦略計画と評価とllmエージェントの実行
Authors: Jiangjie Chen, Siyu Yuan, Rong Ye, Bodhisattwa Prasad Majumder, Kyle Richardson
Abstract要約: オークション内でのLarge Language Models(LLM)を評価するための新しいシミュレーション環境であるAucArenaを紹介する。我々は、最先端のLCMを入札エージェントとして使用して、いくつかの制御されたシミュレーションを行う。簡単なプロンプトによって,LLMはオークションに効果的に関与するために必要なスキルの多くを実演していることがわかった。
参考スコア（独自算出の注目度）: 27.750045823198928
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Can Large Language Models (LLMs) simulate human behavior in complex environments? LLMs have recently been shown to exhibit advanced reasoning skills but much of NLP evaluation still relies on static benchmarks. Answering this requires evaluation environments that probe strategic reasoning in competitive, dynamic scenarios that involve long-term planning. We introduce AucArena, a novel simulation environment for evaluating LLMs within auctions, a setting chosen for being highly unpredictable and involving many skills related to resource and risk management, while also being easy to evaluate. We conduct several controlled simulations using state-of-the-art LLMs as bidding agents. We find that through simple prompting, LLMs do indeed demonstrate many of the skills needed for effectively engaging in auctions (e.g., managing budget, adhering to long-term goals and priorities), skills that we find can be sharpened by explicitly encouraging models to be adaptive and observe strategies in past auctions. These results are significant as they show the potential of using LLM agents to model intricate social dynamics, especially in competitive settings. However, we also observe considerable variability in the capabilities of individual LLMs. Notably, even our most advanced models (GPT-4) are occasionally surpassed by heuristic baselines and human agents, highlighting the potential for further improvements in the design of LLM agents and the important role that our simulation environment can play in further testing and refining agent architectures.
Abstract（参考訳）: 大規模言語モデル(llm)は複雑な環境で人間の行動をシミュレートできるか? LLMは近年、高度な推論技術を示すことが示されているが、NLP評価の多くは静的ベンチマークに依存している。これを答えるには、長期計画を含む競争的で動的なシナリオにおける戦略的推論を調査する評価環境が必要である。 AucArenaはオークション内でLLMを評価するための新しいシミュレーション環境であり、非常に予測不可能で、資源管理やリスク管理に関わるスキルが数多く含まれており、評価も容易である。我々は最先端のLCMを入札エージェントとしていくつかの制御シミュレーションを行う。簡単なプロンプトによって、LLMは実際にオークションに効果的に関与するために必要なスキル(例えば、予算の管理、長期的な目標と優先順位の順守)の多くを実演し、過去のオークションにおいてモデルに適応し、戦略を観察することを明示的に奨励することで、そのスキルを磨くことができることがわかった。これらの結果は、特に競争環境において、複雑な社会的ダイナミクスをモデル化するためにLLMエージェントを使用することの可能性を示す。しかし, 個々のLDMの能力の変動も観察できる。特に、我々の最も先進的なモデル(GPT-4)でさえ時折ヒューリスティックなベースラインとヒューマンエージェントに抜かれ、LLMエージェントの設計のさらなる改善の可能性と、エージェントアーキテクチャのさらなるテストおよび精錬においてシミュレーション環境が果たす重要な役割を強調している。

関連論文リスト

EconEvals: Benchmarks and Litmus Tests for LLM Agents in Unknown Environments [0.0699049312989311]
我々は,未知の環境下で行動し,学習し,戦略を立てるLLMエージェントのベンチマークを開発する。また, LLM および LLM エージェントの新しい定量尺度であるlitmus test も提案する。
論文参考訳（メタデータ） (2025-03-24T16:06:04Z)
DeepFund: Will LLM be Professional at Fund Investment? A Live Arena Perspective [10.932591941137698]
本稿では,シミュレーション環境における大規模言語モデル(LLM)を評価するための総合的なプラットフォームであるDeepFundを紹介する。提案手法は,LLMがアナリストとマネージャの両方として機能するマルチエージェントフレームワークを実装し,投資決定の現実的なシミュレーションを作成する。異なる市場条件と投資パラメータをまたいだモデル性能を可視化し、詳細な比較分析を可能にするWebインターフェースを提供する。
論文参考訳（メタデータ） (2025-03-24T03:32:13Z)
Reinforcement Learning Environment with LLM-Controlled Adversary in D&D 5th Edition Combat [0.0]
この研究では、より小さなエージェントにDeep Q-Networks(DQN)を採用し、戦略的AI開発のためのテストベッドを作成している。高度な言語モデルをRLフレームワークに統合し、戦略的意思決定プロセスの強化に成功しました。
論文参考訳（メタデータ） (2025-03-19T22:48:20Z)
EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning [69.55982246413046]
戦略的推論のための明示的なポリシー最適化(EPO)を提案する。 EPOはオープンなアクション空間で戦略を提供し、任意のLLMエージェントにプラグインすることで、ゴール指向の振る舞いを動機付けることができる。社会的および物理的領域にわたる実験は、EPOの長期的なゴールアライメント能力を示す。
論文参考訳（メタデータ） (2025-02-18T03:15:55Z)
Teaching LLMs According to Their Aptitude: Adaptive Reasoning for Mathematical Problem Solving [55.895917967408586]
大規模な言語モデルによる数学的推論への既存のアプローチは、一般化可能性(英語版)にはChain-of-Thought(英語版)(CoT)、正確な計算にはTool-Integrated Reasoning(英語版)(TIR)に依存している。本稿では, LLM が自然に推論戦略をパーソナライズできる適応型フレームワークである TATA (Teaching LLMs according their Aptitude) を提案する。
論文参考訳（メタデータ） (2025-02-17T16:56:23Z)
Exploring ReAct Prompting for Task-Oriented Dialogue: Insights and Shortcomings [10.464799846640625]
大規模言語モデル(LLM)は、構造化されていない会話における印象的な能力のために大きな人気を得た。タスク指向対話(TOD)を行うLLMの指導にReAct戦略を適用した。我々はReAct-LLM(ReAct-LLM)をシミュレーションと実ユーザの両方で評価する。
論文参考訳（メタデータ） (2024-12-02T08:30:22Z)
BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games [44.16513620589459]
本稿では,大規模言語モデル(LLM)と視覚言語モデル(VLM)のエージェント能力を評価する新しいベンチマークであるBALROGを紹介する。私たちのベンチマークでは、熟練していない人間が数秒で解決できるタスクや、習得に何年もかかるような極めて困難なタスクなど、さまざまな難易度を持つ既存の強化学習環境を取り入れています。より簡単なゲームでは,現行のモデルが部分的には成功しているが,より困難なタスクに苦しむことが示唆された。
論文参考訳（メタデータ） (2024-11-20T18:54:32Z)
EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文参考訳（メタデータ） (2024-10-08T17:54:03Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文参考訳（メタデータ） (2024-06-19T00:28:58Z)
Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文参考訳（メタデータ） (2024-06-18T22:57:06Z)
A Survey of Useful LLM Evaluation [20.048914787813263]
2段階フレームワーク:コア能力からエージェントへ」コア能力」の段階では, LLMの推論能力, 社会的影響, ドメイン知識について議論した。エージェントの段階では, LLMエージェントアプリケーションの動作, 計画, ツール学習の具体化を実演した。
論文参考訳（メタデータ） (2024-06-03T02:20:03Z)
STRIDE: A Tool-Assisted LLM Agent Framework for Strategic and Interactive Decision-Making [43.734386326024016]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしており、言語能力と推論能力が顕著である。本稿では,その戦略的意思決定能力を高めるため,メモリと特殊なツールを備えた新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-05-25T23:25:10Z)
Can Large Language Models be Trusted for Evaluation? Scalable Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.06294042304415]
エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。フレームワークのコードをGitHubで公開しています。
論文参考訳（メタデータ） (2024-01-30T07:03:32Z)
Through the Lens of Core Competency: Survey on Evaluation of Large Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。 LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文参考訳（メタデータ） (2023-08-15T17:40:34Z)
AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文参考訳（メタデータ） (2023-08-07T16:08:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。