論文の概要: Win Fast or Lose Slow: Balancing Speed and Accuracy in Latency-Sensitive Decisions of LLMs
- arxiv url: http://arxiv.org/abs/2505.19481v1
- Date: Mon, 26 May 2025 04:03:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.153889
- Title: Win Fast or Lose Slow: Balancing Speed and Accuracy in Latency-Sensitive Decisions of LLMs
- Title(参考訳): LLMの遅延感度決定における速度と精度のバランシング
- Authors: Hao Kang, Qingru Zhang, Han Cai, Weiyuan Xu, Tushar Krishna, Yilun Du, Tsachy Weissman,
- Abstract要約: 大規模言語モデル(LLM)は、様々な推論や生成タスクで顕著なパフォーマンスを示している。
この研究は、リアルタイム意思決定タスクにおいて、このレイテンシ品質のトレードオフに関する最初の体系的な研究を示す。
実時間要求に基づいてモデルサイズと量子化レベルを動的に選択する適応型フレームワークFPXを提案する。
- 参考スコア(独自算出の注目度): 48.653022530291494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown remarkable performance across diverse reasoning and generation tasks, and are increasingly deployed as agents in dynamic environments such as code generation and recommendation systems. However, many real-world applications, such as high-frequency trading and real-time competitive gaming, require decisions under strict latency constraints, where faster responses directly translate into higher rewards. Despite the importance of this latency quality trade off, it remains underexplored in the context of LLM based agents. In this work, we present the first systematic study of this trade off in real time decision making tasks. To support our investigation, we introduce two new benchmarks: HFTBench, a high frequency trading simulation, and StreetFighter, a competitive gaming platform. Our analysis reveals that optimal latency quality balance varies by task, and that sacrificing quality for lower latency can significantly enhance downstream performance. To address this, we propose FPX, an adaptive framework that dynamically selects model size and quantization level based on real time demands. Our method achieves the best performance on both benchmarks, improving win rate by up to 80% in Street Fighter and boosting daily yield by up to 26.52% in trading, underscoring the need for latency aware evaluation and deployment strategies for LLM based agents. These results demonstrate the critical importance of latency aware evaluation and deployment strategies for real world LLM based agents. Our benchmarks are available at Latency Sensitive Benchmarks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な推論や生成タスクにまたがって顕著なパフォーマンスを示し、コード生成やレコメンデーションシステムといった動的環境におけるエージェントとしてますます多くデプロイされている。
しかし、高周波トレーディングやリアルタイムの競争ゲームのような現実世界の多くのアプリケーションは、より速い応答が直接より高い報酬に変換される厳格なレイテンシ制約の下での判断を必要とする。
このレイテンシ品質のトレードオフの重要性にもかかわらず、LLMベースのエージェントの文脈では、まだ過小評価されていない。
本研究は、リアルタイム意思決定タスクにおいて、このトレードオフに関する最初の体系的研究を提示する。
調査を支援するために,HFTBench,高頻度取引シミュレーション,および競合ゲームプラットフォームであるStreetFighterという2つの新しいベンチマークを導入した。
分析の結果,最適レイテンシ品質のバランスはタスクによって異なり,低レイテンシに対する犠牲な品質はダウンストリーム性能を著しく向上させることがわかった。
そこで本研究では,リアルタイムの要求に応じて動的にモデルサイズと量子化レベルを選択する適応型フレームワークFPXを提案する。
提案手法は両ベンチマークで最高の性能を達成し,Street Fighterの利益率を最大80%向上し,取引の日収を最大26.52%向上させ,LCMベースのエージェントの遅延認識評価とデプロイメント戦略の必要性を浮き彫りにした。
これらの結果から,リアルタイムLLMエージェントの遅延認識評価と展開戦略の重要性が示唆された。
ベンチマークはLatency Sensitive Benchmarksで公開しています。
関連論文リスト
- MixLLM: Dynamic Routing in Mixed Large Language Models [57.309520357563215]
大規模言語モデル(LLM)は、最近、人工知能の可能性を秘めている。
問合せ-LLM代入のための動的コンテキスト帯域ベースのルーティングシステムであるMixLLMを開発した。
論文 参考訳(メタデータ) (2025-02-09T02:26:15Z) - Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization [61.02719787737867]
大規模言語モデル(LLM)はますますエッジデバイスにデプロイされ、民主化されている。
1つの有望な解決策は不確実性に基づくSLMルーティングであり、SLM上での低信頼応答が発生すると、高い要求を強いLCMにオフロードする。
我々は1500以上の設定でSLMからLLMへの不確実性駆動型ルーティング戦略のベンチマークと一般化を包括的に調査する。
論文 参考訳(メタデータ) (2025-02-06T18:59:11Z) - Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。
LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。
我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文 参考訳(メタデータ) (2025-01-24T06:39:38Z) - Are Your LLMs Capable of Stable Reasoning? [38.03049704515947]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な進歩を示している。
しかし、ベンチマークパフォーマンスと実世界のアプリケーションの間には大きな違いがある。
G-Pass@kはモデルの性能を連続的に評価する新しい評価指標である。
本稿では,挑戦的,現代数学的な問題からなる動的ベンチマークであるLiveMathBenchを紹介する。
論文 参考訳(メタデータ) (2024-12-17T18:12:47Z) - MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures [57.886592207948844]
市販のベンチマークを戦略的に混合することにより,効率的な金標準評価を実現するための新しいパラダイムであるMixEvalを提案する。
提案手法は,(1)包括的でよく分散された実世界のユーザクエリと(2)Webから抽出したクエリと,既存のベンチマークからの類似したクエリとをマッチングすることによって,効率よく,かつ,かなり改善された基盤トラスベースのベンチマークを橋渡しする。
論文 参考訳(メタデータ) (2024-06-03T05:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。