論文の概要: LemonadeBench: Evaluating the Economic Intuition of Large Language Models in Simple Markets
- arxiv url: http://arxiv.org/abs/2602.13209v1
- Date: Wed, 14 Jan 2026 16:54:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 12:01:13.543789
- Title: LemonadeBench: Evaluating the Economic Intuition of Large Language Models in Simple Markets
- Title(参考訳): LemonadeBench: 単純市場における大規模言語モデルの経済的直観の評価
- Authors: Aidan Vyas,
- Abstract要約: 我々は、経済直観、長期計画、不確実性の下での意思決定を評価するための最小限のベンチマークであるLemonadeBench v0.5を紹介する。
モデルは、期限切れの商品で在庫を管理し、価格を設定し、営業時間を選択し、小さなビジネスオーナーが毎日直面する30日間のタスクで利益を最大化しなければならない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce LemonadeBench v0.5, a minimal benchmark for evaluating economic intuition, long-term planning, and decision-making under uncertainty in large language models (LLMs) through a simulated lemonade stand business. Models must manage inventory with expiring goods, set prices, choose operating hours, and maximize profit over a 30-day period-tasks that any small business owner faces daily. All models demonstrate meaningful economic agency by achieving profitability, with performance scaling dramatically by sophistication-from basic models earning minimal profits to frontier models capturing 70% of theoretical optimal, a greater than 10x improvement. Yet our decomposition of business efficiency across six dimensions reveals a consistent pattern: models achieve local rather than global optimization, excelling in select areas while exhibiting surprising blind spots elsewhere.
- Abstract(参考訳): 我々は,大規模言語モデル(LLM)における経済直観,長期計画,意思決定の最小限のベンチマークであるLemonadeBench v0.5を,シミュレーションされたレモネードスタンドビジネスを通じて導入する。
モデルは、期限切れの商品で在庫を管理し、価格を設定し、営業時間を選択し、小さなビジネスオーナーが毎日直面する30日間のタスクで利益を最大化しなければならない。
すべてのモデルは、利益性を達成することで有意義な経済エージェンシーを示し、基礎モデルから最小限の利益を得る基礎モデルから、理論上の最適性の70%を取得するフロンティアモデルまで、パフォーマンスを劇的に拡大し、10倍以上の改善を達成している。
しかし、当社の6次元にわたるビジネス効率の分解は、一貫したパターンを明らかにしている。
関連論文リスト
- Is GPT-OSS All You Need? Benchmarking Large Language Models for Financial Intelligence and the Surprising Efficiency Paradox [2.22127956352394]
本稿では,GPT-OSSモデルファミリーを,10種類の財務NLPタスクにまたがる現代LPMとともに包括的に評価する。
より小さなGPT-OSS-20Bモデルは、計算効率を向上しつつ、同等の精度(65.1%対66.5%)を達成する。
GPT-OSSにおけるアーキテクチャの革新とトレーニング戦略により,より小さなモデルで計算オーバーヘッドを大幅に削減し,競争性能を向上できることを示す。
論文 参考訳(メタデータ) (2025-12-09T06:07:19Z) - Explicit Reasoning Makes Better Judges: A Systematic Study on Accuracy, Efficiency, and Robustness [12.513874407270142]
我々は,Large Language Models (LLMs) と "thinking" と "non-thinking" の体系的比較を示す。
RewardBenchタスクの精度と計算効率(FLOP)を評価した。
以上の結果から,思考モデルの精度は10%程度向上し,オーバーヘッドは少なかった。
論文 参考訳(メタデータ) (2025-09-09T18:36:02Z) - Sustainability via LLM Right-sizing [21.17523328451591]
大規模言語モデル(LLM)はますます組織に組み込まれている。
本研究は,10の日常業務において,プロプライエタリでオープンウェイトなLDMを11個評価することによって,実証的な回答を提供する。
その結果, GPT-4oは高い性能を保ちながら, コストと環境のフットプリントが著しく高いことがわかった。
論文 参考訳(メタデータ) (2025-04-17T04:00:40Z) - EfficientLLaVA:Generalizable Auto-Pruning for Large Vision-language Models [64.18350535770357]
マルチモーダル推論の効率を高めるために,大規模視覚言語モデルの自動プルーニング手法を提案する。
提案手法では,所望のプルーニングポリシーを探索するために,少数のサンプルのみを活用する。
視覚的質問応答のためのScienceQA, Vizwiz, MM-vet, LLaVA-Benchデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2025-03-19T16:07:04Z) - Ranked from Within: Ranking Large Multimodal Models Without Labels [73.96543593298426]
ソフトマックス分布から導かれる不確実性スコアは,様々なタスクにまたがるランキングモデルに対して,ロバストな基礎となることを示す。
これにより、ラベルのないデータに対するLMMのランク付けが容易になり、手動のアノテーションを必要とせずに、多様なターゲットドメインのモデルを選択するための実践的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-12-09T13:05:43Z) - All models are wrong, some are useful: Model Selection with Limited Labels [49.62984196182567]
本稿では,事前学習した分類器をラベル効率で選択するフレームワークであるMODEL SELECTORを紹介する。
MODEL SELECTOR はラベル付きデータの必要性を劇的に減らし,最良あるいは最良に近い性能のモデルを選択することを示す。
モデル選択におけるMODEL SELECTORのロバスト性をさらに強調し, 最良モデルを選択する場合, ラベル付けコストを最大72.41%削減する。
論文 参考訳(メタデータ) (2024-10-17T14:45:56Z) - Which LLM to Play? Convergence-Aware Online Model Selection with
Time-Increasing Bandits [43.65904435249823]
本稿では,モデルの性能向上を効果的に予測する帯域幅増加アルゴリズムTI-UCBを提案する。
本研究は,より効率的かつ経済的なモデル選択のために,増大する収束パターンを活用することの重要性を強調した。
論文 参考訳(メタデータ) (2024-03-11T23:52:46Z) - PanGu-$\pi$: Enhancing Language Model Architectures via Nonlinearity
Compensation [97.78045712375047]
大規模言語モデル(LLM)のための新しい効率的なモデルアーキテクチャを提案する。
そこで,PanGu-$pi$-7Bは,約10%の推論速度を持つベンチマークに匹敵する性能が得られることを示す。
さらに,PanGu-$pi$-7Bを金融法と法律の高価値領域に導入し,実践的応用のためにYunShanというLLMを開発した。
論文 参考訳(メタデータ) (2023-12-27T11:49:24Z) - Minimal Value-Equivalent Partial Models for Scalable and Robust Planning
in Lifelong Reinforcement Learning [56.50123642237106]
モデルに基づく強化学習における一般的な実践は、エージェントの環境のあらゆる側面をモデル化するモデルを学ぶことである。
このようなモデルは、生涯にわたる強化学習シナリオにおいて、スケーラブルで堅牢な計画を実行するのに特に適していない、と我々は主張する。
我々は,「最小値部分モデル」と呼ぶ,環境の関連する側面のみをモデル化する新しい種類のモデルを提案する。
論文 参考訳(メタデータ) (2023-01-24T16:40:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。