論文の概要: OckBench: Measuring the Efficiency of LLM Reasoning
- arxiv url: http://arxiv.org/abs/2511.05722v1
- Date: Fri, 07 Nov 2025 21:29:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.547883
- Title: OckBench: Measuring the Efficiency of LLM Reasoning
- Title(参考訳): OckBench: LLM推論の効率測定
- Authors: Zheng Du, Hao Kang, Song Han, Tushar Krishna, Ligeng Zhu,
- Abstract要約: OckBenchは、推論およびコーディングタスクの正確性とトークン数の両方を評価するベンチマークである。
トークン消費の精度は,多くのモデルで大きく異なることがわかった。
OckBenchはトークン効率推論の研究を計測、比較、指導するための統一されたプラットフォームを提供する。
- 参考スコア(独自算出の注目度): 19.06128472840761
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models such as GPT-4, Claude 3, and the Gemini series have improved automated reasoning and code generation. However, existing benchmarks mainly focus on accuracy and output quality, and they ignore an important factor: decoding token efficiency. In real systems, generating 10,000 tokens versus 100,000 tokens leads to large differences in latency, cost, and energy. In this work, we introduce OckBench, a model-agnostic and hardware-agnostic benchmark that evaluates both accuracy and token count for reasoning and coding tasks. Through experiments comparing multiple open- and closed-source models, we uncover that many models with comparable accuracy differ wildly in token consumption, revealing that efficiency variance is a neglected but significant axis of differentiation. We further demonstrate Pareto frontiers over the accuracy-efficiency plane and argue for an evaluation paradigm shift: we should no longer treat tokens as "free" to multiply. OckBench provides a unified platform for measuring, comparing, and guiding research in token-efficient reasoning. Our benchmarks are available at https://ockbench.github.io/ .
- Abstract(参考訳): GPT-4、Claude 3、Geminiシリーズといった大規模言語モデルは、自動推論とコード生成を改善した。
しかし、既存のベンチマークは主に正確さと出力品質に重点を置いており、トークン効率の復号化という重要な要素を無視している。
実際のシステムでは,10000トークンに対して10000トークンを生成すると,レイテンシやコスト,エネルギが大きく異なります。
本稿では,モデルに依存しないハードウェアに依存しないベンチマークであるOckBenchを紹介する。
複数のオープンソースモデルとクローズドソースモデルを比較した実験により、トークン消費において同等の精度を持つモデルが大きく異なることが判明し、効率の分散は無視されるが重要な微分軸であることが判明した。
さらに、精度効率面に対するParetoのフロンティアを実証し、評価パラダイムシフトを主張する。
OckBenchはトークン効率推論の研究を計測、比較、指導するための統一されたプラットフォームを提供する。
ベンチマークはhttps://ockbench.github.io/で公開しています。
関連論文リスト
- Benchmark Profiling: Mechanistic Diagnosis of LLM Benchmarks [34.09939383415074]
ベンチマークプロファイリングは、ベンチマークのパフォーマンスを10の認知的基盤を持つ能力に分解する。
パフォーマンス向上がユーザ認識能力に必ずしも変換されない理由を説明する。
論文 参考訳(メタデータ) (2025-09-23T15:32:47Z) - Understanding and Mitigating Numerical Sources of Nondeterminism in LLM Inference [31.2331188304598]
評価バッチサイズ、GPUカウント、GPUバージョンなどのシステム構成の変更は、生成されたレスポンスに大きな違いをもたらす可能性がある。
この変数の根本原因は、限定的な数値精度で浮動小数点算術の非連想性に遡る。
そこで我々は16ビットの精度で重みを格納するが、FP32では全ての計算を実行する軽量な推論パイプラインLayerCastを開発した。
論文 参考訳(メタデータ) (2025-06-11T08:23:53Z) - AutoJudge: Judge Decoding Without Manual Annotation [13.451750613294054]
AutoJudgeは大規模言語モデル(LLM)推論をタスク固有の損失投機的デコードで高速化する手法である。
提案手法は,ターゲットモデルとドラフトモデルとのミスマッチのどれを修正すべきかを,半グレディな探索アルゴリズムに頼っている。
論文 参考訳(メタデータ) (2025-04-28T17:59:28Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - Do Large Language Model Benchmarks Test Reliability? [66.1783478365998]
モデル信頼性の定量化について検討する。
信頼性評価におけるこのギャップにより、我々はいわゆるプラチナベンチマークの概念を提案する。
我々は、これらのプラチナベンチマークにおいて、幅広いモデルを評価し、実際、フロンティアLSMは、単純なタスクで失敗を示す。
論文 参考訳(メタデータ) (2025-02-05T18:58:19Z) - Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z) - Adaptive Sparse ViT: Towards Learnable Adaptive Token Pruning by Fully
Exploiting Self-Attention [36.90363317158731]
最小限のコストで適応的なスパーストークンプルーニングフレームワークを提案する。
提案手法では,DeiT-Sのスループットを50%向上し,トップ1の精度は0.2%低下した。
論文 参考訳(メタデータ) (2022-09-28T03:07:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。