Fugu-MT 論文翻訳(概要): Put Your Money Where Your Mouth Is: Evaluating Strategic Planning and Execution of LLM Agents in an Auction Arena

論文の概要: Put Your Money Where Your Mouth Is: Evaluating Strategic Planning and Execution of LLM Agents in an Auction Arena

arxiv url: http://arxiv.org/abs/2310.05746v2
Date: Wed, 3 Apr 2024 03:37:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 12:52:33.897002
Title: Put Your Money Where Your Mouth Is: Evaluating Strategic Planning and Execution of LLM Agents in an Auction Arena
Title（参考訳）: オークション場におけるLLMエージェントの戦略計画と実行の評価
Authors: Jiangjie Chen, Siyu Yuan, Rong Ye, Bodhisattwa Prasad Majumder, Kyle Richardson,
Abstract要約: オークションをシミュレートする新しい評価スイートであるAucArenaを紹介する。我々は,最先端の大規模言語モデル(LLM)を用いて,入札エージェントによる計画と実行スキルのベンチマークを行う制御実験を行う。
参考スコア（独自算出の注目度）: 25.865825113847404
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Recent advancements in Large Language Models (LLMs) showcase advanced reasoning, yet NLP evaluations often depend on static benchmarks. Evaluating this necessitates environments that test strategic reasoning in dynamic, competitive scenarios requiring long-term planning. We introduce AucArena, a novel evaluation suite that simulates auctions, a setting chosen for being highly unpredictable and involving many skills related to resource and risk management, while also being easy to evaluate. We conduct controlled experiments using state-of-the-art LLMs to power bidding agents to benchmark their planning and execution skills. Our research demonstrates that LLMs, such as GPT-4, possess key skills for auction participation, such as budget management and goal adherence, which improve with adaptive strategies. This highlights LLMs' potential in modeling complex social interactions in competitive contexts. However, variability in LLM performance and occasional outperformance by simpler methods indicate opportunities for further advancements in LLM design and the value of our simulation environment for ongoing testing and refinement.
Abstract（参考訳）: 近年のLarge Language Models (LLM) の進歩は高度な推論を示すが、NLP評価は静的なベンチマークに依存することが多い。これを評価することは、長期計画を必要とする動的で競争的なシナリオで戦略的推論をテストする必要のある環境を評価する。 AucArenaは、オークションをシミュレートする新しい評価スイートであり、非常に予測不可能で、リソースやリスク管理に関連するスキルが数多く含まれており、評価も容易である。我々は、最先端のLLMを用いて制御実験を行い、入札エージェントに計画と実行のスキルをベンチマークさせる。本研究は,GPT-4 などの LLM が,予算管理や目標順守といった,適応戦略によって改善されるオークション参加の鍵となるスキルを持っていることを実証する。このことは、LLMが競合する状況下で複雑な社会的相互作用をモデル化する可能性を強調している。しかし, 簡易な手法によるLLM性能と時折性能の変動は, LLM設計のさらなる進歩と, 継続する試験および改良のためのシミュレーション環境の価値を示す。

関連論文リスト

Reinforcement World Model Learning for LLM-based Agents [60.65003139516272]
強化世界モデル学習(Reinforcement World Model Learning, RWML)は、LDMをベースとしたエージェントのための行動教師付き世界モデルを学ぶ自己条件付き手法である。本手法は, モデルが生成したシミュレーションされた次の状態と, 環境から観測された次の状態とを一致させる。本手法をALFWorldと2ドルのBenchで評価し,完全に自己管理されているにもかかわらず,ベースモデルに対する大幅な利得を観測した。
論文参考訳（メタデータ） (2026-02-05T16:30:08Z)
Evaluating from Benign to Dynamic Adversarial: A Squid Game for Large Language Models [57.33350664910483]
資源制約と非対称な情報設定を備えた動的・対角的評価環境であるSquid Gameを紹介する。我々は,Squid Game 上で50以上の LLM を評価し,動的対向シナリオにおける一般 LLM の行動評価研究を最大規模で行った。
論文参考訳（メタデータ） (2025-11-12T06:06:29Z)
AthenaBench: A Dynamic Benchmark for Evaluating LLMs in Cyber Threat Intelligence [4.077787659104315]
大規模言語モデル(LLM)は、自然言語推論において強力な能力を示しているが、サイバー脅威インテリジェンス(CTI)への応用は限定的である。 AthenaBenchは、改良されたデータセット生成パイプライン、重複除去、洗練された評価指標、リスク軽減戦略に焦点を当てた新しいタスクを含む、拡張されたベンチマークです。我々は、GPT-5やGemini-2.5 Proといった最先端のプロプライエタリモデルを含む12のLLMと、LLaMAおよびQwenファミリーの7つのオープンソースモデルを評価した。
論文参考訳（メタデータ） (2025-11-03T01:45:29Z)
Balancing Fine-tuning and RAG: A Hybrid Strategy for Dynamic LLM Recommendation Updates [11.974496007403694]
大規模言語モデル(LLM)は、高度な推論と計画能力を通じてレコメンデーションシステムを強化する。本稿では,LLMを利用したリコメンデータの更新戦略について検討し,現在進行中の微調整と検索機能強化(RAG)のトレードオフに着目した。本稿では,周期的微調整の長期的知識適応と低コストRAGの俊敏性を活用するハイブリッド更新戦略を提案する。
論文参考訳（メタデータ） (2025-10-23T06:31:00Z)
AI Playing Business Games: Benchmarking Large Language Models on Managerial Decision-Making in Dynamic Simulations [0.0]
本研究は,ビジネスにおける意思決定にビジネスゲームを用いた新しいベンチマークを解析する。この研究は、再現可能なオープンアクセス管理シミュレータを提案することで、AIに関する最近の文献に貢献する。
論文参考訳（メタデータ） (2025-09-30T14:43:05Z)
Continuous-Time Reinforcement Learning for Asset-Liability Management [0.0]
本稿では,連続時間強化学習(RL)を用いたアセット・リバビリティ・マネジメント(ALM)の新しいアプローチを提案する。本研究では,アセットと負債を動的に同期する ALM に適した,モデルフリーでポリシー勾配に基づくソフトアクター批判アルゴリズムを開発した。本研究は,従来の2つの金融戦略,モデルベース連続時間RL法,最先端RLアルゴリズムに対するアプローチを実証的に評価する。
論文参考訳（メタデータ） (2025-09-27T12:36:51Z)
On the Performance of LLMs for Real Estate Appraisal [5.812129569528997]
本研究では,Large Language Models (LLMs) が,競争力と解釈可能な住宅価格推定を生成することによって,不動産情報へのアクセスを民主化する方法について検討する。我々は,多種多様な国際住宅データを用いて,ゼロショット,少数ショット,市場レポート強化,ハイブリッドプロンプト技術の比較を行った。この結果から, LLMは, 特性サイズやアメニティなどのヘドニック変数を有効利用し, 有意義な推定値が得られることがわかった。
論文参考訳（メタデータ） (2025-06-13T14:14:40Z)
EconEvals: Benchmarks and Litmus Tests for LLM Agents in Unknown Environments [0.0699049312989311]
我々は,未知の環境下で行動し,学習し,戦略を立てるLLMエージェントのベンチマークを開発する。また, LLM および LLM エージェントの新しい定量尺度であるlitmus test も提案する。
論文参考訳（メタデータ） (2025-03-24T16:06:04Z)
DeepFund: Will LLM be Professional at Fund Investment? A Live Arena Perspective [10.932591941137698]
本稿では,シミュレーション環境における大規模言語モデル(LLM)を評価するための総合的なプラットフォームであるDeepFundを紹介する。提案手法は,LLMがアナリストとマネージャの両方として機能するマルチエージェントフレームワークを実装し,投資決定の現実的なシミュレーションを作成する。異なる市場条件と投資パラメータをまたいだモデル性能を可視化し、詳細な比較分析を可能にするWebインターフェースを提供する。
論文参考訳（メタデータ） (2025-03-24T03:32:13Z)
Reinforcement Learning Environment with LLM-Controlled Adversary in D&D 5th Edition Combat [0.0]
この研究では、より小さなエージェントにDeep Q-Networks(DQN)を採用し、戦略的AI開発のためのテストベッドを作成している。高度な言語モデルをRLフレームワークに統合し、戦略的意思決定プロセスの強化に成功しました。
論文参考訳（メタデータ） (2025-03-19T22:48:20Z)
EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning [69.55982246413046]
戦略的推論のための明示的なポリシー最適化(EPO)を提案する。 EPOはオープンなアクション空間で戦略を提供し、任意のLLMエージェントにプラグインすることで、ゴール指向の振る舞いを動機付けることができる。社会的および物理的領域にわたる実験は、EPOの長期的なゴールアライメント能力を示す。
論文参考訳（メタデータ） (2025-02-18T03:15:55Z)
Teaching LLMs According to Their Aptitude: Adaptive Reasoning for Mathematical Problem Solving [55.895917967408586]
大規模な言語モデルによる数学的推論への既存のアプローチは、一般化可能性(英語版)にはChain-of-Thought(英語版)(CoT)、正確な計算にはTool-Integrated Reasoning(英語版)(TIR)に依存している。本稿では, LLM が自然に推論戦略をパーソナライズできる適応型フレームワークである TATA (Teaching LLMs according their Aptitude) を提案する。
論文参考訳（メタデータ） (2025-02-17T16:56:23Z)
Exploring ReAct Prompting for Task-Oriented Dialogue: Insights and Shortcomings [10.464799846640625]
大規模言語モデル(LLM)は、構造化されていない会話における印象的な能力のために大きな人気を得た。タスク指向対話(TOD)を行うLLMの指導にReAct戦略を適用した。我々はReAct-LLM(ReAct-LLM)をシミュレーションと実ユーザの両方で評価する。
論文参考訳（メタデータ） (2024-12-02T08:30:22Z)
BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games [44.16513620589459]
本稿では,大規模言語モデル(LLM)と視覚言語モデル(VLM)のエージェント能力を評価する新しいベンチマークであるBALROGを紹介する。私たちのベンチマークでは、熟練していない人間が数秒で解決できるタスクや、習得に何年もかかるような極めて困難なタスクなど、さまざまな難易度を持つ既存の強化学習環境を取り入れています。より簡単なゲームでは,現行のモデルが部分的には成功しているが,より困難なタスクに苦しむことが示唆された。
論文参考訳（メタデータ） (2024-11-20T18:54:32Z)
EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文参考訳（メタデータ） (2024-10-08T17:54:03Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文参考訳（メタデータ） (2024-06-19T00:28:58Z)
Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文参考訳（メタデータ） (2024-06-18T22:57:06Z)
A Survey of Useful LLM Evaluation [20.048914787813263]
2段階フレームワーク:コア能力からエージェントへ」コア能力」の段階では, LLMの推論能力, 社会的影響, ドメイン知識について議論した。エージェントの段階では, LLMエージェントアプリケーションの動作, 計画, ツール学習の具体化を実演した。
論文参考訳（メタデータ） (2024-06-03T02:20:03Z)
STRIDE: A Tool-Assisted LLM Agent Framework for Strategic and Interactive Decision-Making [43.734386326024016]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしており、言語能力と推論能力が顕著である。本稿では,その戦略的意思決定能力を高めるため,メモリと特殊なツールを備えた新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-05-25T23:25:10Z)
Can Large Language Models be Trusted for Evaluation? Scalable Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.06294042304415]
エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。フレームワークのコードをGitHubで公開しています。
論文参考訳（メタデータ） (2024-01-30T07:03:32Z)
Through the Lens of Core Competency: Survey on Evaluation of Large Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。 LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文参考訳（メタデータ） (2023-08-15T17:40:34Z)
AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文参考訳（メタデータ） (2023-08-07T16:08:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。