論文の概要: Vending-Bench: A Benchmark for Long-Term Coherence of Autonomous Agents
- arxiv url: http://arxiv.org/abs/2502.15840v1
- Date: Thu, 20 Feb 2025 15:52:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:55:01.493420
- Title: Vending-Bench: A Benchmark for Long-Term Coherence of Autonomous Agents
- Title(参考訳): Vending-Bench: 自律エージェントの長期コヒーレンスベンチマーク
- Authors: Axel Backlund, Lukas Petersson,
- Abstract要約: 大規模言語モデル(LLM)は、孤立した短期的なタスクにおいて顕著な熟練度を示すが、長い時間的地平線を超えて一貫性のあるパフォーマンスを維持することができない。
Vending-Benchは、LLMベースのエージェントが、単純で長期にわたるビジネスシナリオを管理する能力をテストするために設計されたシミュレーション環境である。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: While Large Language Models (LLMs) can exhibit impressive proficiency in isolated, short-term tasks, they often fail to maintain coherent performance over longer time horizons. In this paper, we present Vending-Bench, a simulated environment designed to specifically test an LLM-based agent's ability to manage a straightforward, long-running business scenario: operating a vending machine. Agents must balance inventories, place orders, set prices, and handle daily fees - tasks that are each simple but collectively, over long horizons (>20M tokens per run) stress an LLM's capacity for sustained, coherent decision-making. Our experiments reveal high variance in performance across multiple LLMs: Claude 3.5 Sonnet and o3-mini manage the machine well in most runs and turn a profit, but all models have runs that derail, either through misinterpreting delivery schedules, forgetting orders, or descending into tangential "meltdown" loops from which they rarely recover. We find no clear correlation between failures and the point at which the model's context window becomes full, suggesting that these breakdowns do not stem from memory limits. Apart from highlighting the high variance in performance over long time horizons, Vending-Bench also tests models' ability to acquire capital, a necessity in many hypothetical dangerous AI scenarios. We hope the benchmark can help in preparing for the advent of stronger AI systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、孤立した短期的なタスクにおいて顕著な熟練度を示すことができるが、長い時間的地平線を超えて一貫性のあるパフォーマンスを維持するのに失敗することが多い。
本稿では, LLMをベースとしたエージェントによる, 単純で長期にわたる業務シナリオ管理機能, 自動販売機を運用するためのシミュレーション環境であるVending-Benchについて述べる。
エージェントは在庫のバランスをとり、注文を配置し、価格を設定し、日々の手数料を処理する必要がある。
Claude 3.5 Sonnetとo3-miniは、ほとんどの場合、マシンをうまく管理し、利益を上げるが、すべてのモデルは、配送スケジュールを誤って解釈したり、注文を忘れたり、明確な「メルトダウン」ループに陥り、ほとんど回復しない。
失敗とモデルのコンテキストウィンドウが満ちている点との間には明確な相関関係が見られず、これらのブレークダウンはメモリ制限に起因していないことを示唆している。
Vending-Benchは、長時間の地平線におけるパフォーマンスのばらつきの高さを強調するだけでなく、多くの仮説上の危険なAIシナリオにおいて必要となる、資本獲得のモデルの能力もテストしている。
このベンチマークが、より強力なAIシステムの出現に備える上で役立つことを願っている。
関連論文リスト
- Robotouille: An Asynchronous Planning Benchmark for LLM Agents [7.574421886354134]
非同期計画は、時間遅延、多種多様な長期タスクの理由付け、他のエージェントとの協力を必要とするエージェントにとって不可欠である。
我々は、長時間の非同期シナリオを処理するエージェントの能力をテストするために設計されたベンチマーク環境であるRobotouilleを紹介する。
結果から,ReAct(gpt4-o)は同期タスクでは47%,非同期タスクでは11%に過ぎなかった。
論文 参考訳(メタデータ) (2025-02-06T05:50:37Z) - Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。
LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。
我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文 参考訳(メタデータ) (2025-01-24T06:39:38Z) - DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - HELMET: How to Evaluate Long-Context Language Models Effectively and Thoroughly [34.205934899868346]
HELMETは7つの多様なアプリケーション中心のカテゴリを包含する総合ベンチマークである。
NIAHのような合成タスクは、下流のパフォーマンスの予測に適していないことが分かりました。
ほとんどのLCLMは完全なNIAHスコアを達成しているが、タスクがフルコンテキスト推論を必要とする場合、オープンソースモデルはクローズドなスコアよりも大幅に遅れている。
論文 参考訳(メタデータ) (2024-10-03T17:20:11Z) - Beyond Prompts: Dynamic Conversational Benchmarking of Large Language Models [0.0]
本稿では,対話エージェントを対象とした動的ベンチマークシステムを提案する。
タスクをインターリーブするために定期的にコンテキストスイッチを行い、エージェントの長期記憶、継続的な学習、情報統合機能を評価する現実的なテストシナリオを構築します。
論文 参考訳(メタデータ) (2024-09-30T12:01:29Z) - InfLLM: Training-Free Long-Context Extrapolation for LLMs with an Efficient Context Memory [93.20588235940453]
本稿では,トレーニング不要なメモリベースのInfLLMを提案する。
InfLLMは、リモートコンテキストを追加のメモリユニットに格納し、トークン関連ユニットを注目するために効率的なメカニズムを使用する。
シーケンス長が$1,024$Kにスケールしても、InfLLMは依然として、長距離依存関係を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-02-07T06:50:42Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - LoHoRavens: A Long-Horizon Language-Conditioned Benchmark for Robotic
Tabletop Manipulation [38.66406497318709]
この研究はテーブルトップ操作タスクに焦点を当て、色、サイズ、空間、算術、参照にまたがる様々なロングホライゾン推論側面をカバーするシミュレーションベンチマークである textitLoHoRavens をリリースする。
LLMに明示的および暗黙的な観察フィードバックを組み込むためのキャプション生成と学習可能なインタフェースの2つの方法を検討した。
論文 参考訳(メタデータ) (2023-10-18T14:53:14Z) - AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。
我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。