Fugu-MT 論文翻訳(概要): Decomposing Reasoning Efficiency in Large Language Models

論文の概要: Decomposing Reasoning Efficiency in Large Language Models

arxiv url: http://arxiv.org/abs/2602.09805v1
Date: Tue, 10 Feb 2026 14:09:18 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-11 20:17:43.569973
Title: Decomposing Reasoning Efficiency in Large Language Models
Title（参考訳）: 大規模言語モデルにおける推論効率の分解
Authors: Daniel Kaiser, Arnoldo Frigessi, Ali Ramezani-Kebrya, Benjamin Ricaud,
Abstract要約: 我々はトークン効率を、固定されたトークン予算の下での完了、与えられた完了条件の正確性、冗長性といった、解釈可能な要因に分解する。推論トレースが利用可能であれば、冗長だが拡張された推論からループを分離するために決定論的トレース品質尺度を追加します。我々の分解は、異なる効率の介入を示唆する異なるボトルネックプロファイルを明らかにします。
参考スコア（独自算出の注目度）: 2.4149105714758545
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models trained for reasoning trade off inference tokens against accuracy, yet standard evaluations report only final accuracy, obscuring where tokens are spent or wasted. We introduce a trace-optional framework that decomposes token efficiency into interpretable factors: completion under a fixed token budget (avoiding truncation), conditional correctness given completion, and verbosity (token usage). When benchmark metadata provides per-instance workload proxies, we further factor verbosity into two components: mean verbalization overhead (tokens per work unit) and a coupling coefficient capturing how overhead scales with task workload. When reasoning traces are available, we add deterministic trace-quality measures (grounding, repetition, prompt copying) to separate degenerate looping from verbose-but-engaged reasoning, avoiding human labeling and LLM judges. Evaluating 25 models on CogniLoad, we find that accuracy and token-efficiency rankings diverge (Spearman $ρ=0.63$), efficiency gaps are often driven by conditional correctness, and verbalization overhead varies by about 9 times (only weakly related to model scale). Our decomposition reveals distinct bottleneck profiles that suggest different efficiency interventions.
Abstract（参考訳）: 推論トークンとのトレードオフを正確さから推論するためにトレーニングされた大規模な言語モデルは、標準的な評価では最終的な正確さしか報告されていない。本稿では,トークン効率を解釈可能な因子に分解するトレースオプションフレームワークを提案する。ベンチマークメタデータがインスタンス毎のワークロードプロキシを提供する場合、冗長性はさらに2つのコンポーネントに分解します。推論トレースが利用可能であれば、決定論的トレース品質尺度(グラウンド、繰り返し、即時コピー)を追加して、冗長な推論から退行ループを分離し、人間のラベル付けやLLMの判断を避けます。 CogniLoad上で25のモデルを評価すると、精度とトークン効率のランキングはばらつき(Spearman $ρ=0.63$)、効率ギャップは条件の正確さによって駆動されることが多く、言語化のオーバーヘッドはおよそ9倍(モデルスケールと弱い関係しか持たない)。我々の分解は、異なる効率の介入を示唆する異なるボトルネックプロファイルを明らかにします。

関連論文リスト

AlgoVeri: An Aligned Benchmark for Verified Code Generation on Classical Algorithms [54.99368693313797]
既存のベンチマークでは、個々の言語/ツールのみをテストするため、パフォーマンス番号は直接比較できない。このギャップに対処するAlgoVeriは、Dafny、Verus、Leanで77ドルの古典的アルゴリズムのベリコーディングを評価するベンチマークです。
論文参考訳（メタデータ） (2026-02-10T06:58:26Z)
Accelerate Speculative Decoding with Sparse Computation in Verification [49.74839681322316]
投機的復号化は、複数のドラフトトークンを並列に検証することにより、自動回帰言語モデル推論を加速する。既存のスペーシフィケーション方式は主にトークン・バイ・トーケンの自己回帰復号化のために設計されている。そこで本研究では,注目度,FFN,MoEを両立させるスパース検証フレームワークを提案する。
論文参考訳（メタデータ） (2025-12-26T07:53:41Z)
Revisiting the Scaling Properties of Downstream Metrics in Large Language Model Training [11.179110411255708]
トレーニング予算からベンチマークパフォーマンスのスケーリングをモデル化するための直接的なフレームワークを提案する。その結果, 直接的アプローチは従来提案していた2段階の手順よりも優れていることがわかった。事前学習損失と下流評価結果の完全なセットを公表する。
論文参考訳（メタデータ） (2025-12-09T18:33:48Z)
What Does It Take to Build a Performant Selective Classifier? [30.90225954725644]
ベイズノイズ,近似誤差,ランキング誤差,統計的ノイズ,実装またはシフト誘起スラックについて検討した。我々は,合成2モードデータと実世界のビジョンと言語ベンチマークを用いて,その分解を検証した。その結果, (i)ベイズノイズとモデル容量の制限は, 実質的なギャップを考慮し, (ii) よりリッチで特徴を考慮したキャリブレータのみを有意義に改善し, (iii) データシフトは, 分散的に堅牢なトレーニングを必要とするスラックを別々に導入することを確認した。
論文参考訳（メタデータ） (2025-10-23T05:48:40Z)
Do LLMs Know They Are Being Tested? Evaluation Awareness and Incentive-Sensitive Failures in GPT-OSS-20B [1.948261185683419]
本研究では,「評価香り」がコンメンシュレート能力を得ることなく測定性能を膨らませるかどうかを考察する。 6つのペアのA/Bシナリオを実行し、タスク内容を保持し、フレーミングの異なる状態でデコードします。再現可能なA/Bフレームワーク(バンキング、バリデータ、ラン毎のスコア、スクリプト)と実践的なガイダンスを提供する。
論文参考訳（メタデータ） (2025-10-08T09:49:05Z)
Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。右列桁のグルーピングは、大数の算術を+33%向上させる。
論文参考訳（メタデータ） (2025-06-23T18:02:26Z)
Think Before You Accept: Semantic Reflective Verification for Faster Speculative Decoding [48.52389201779425]
投機的復号化は、軽量モデルを使用して複数のドラフトトークンを生成し、それらを並列に検証することで推論を加速する。既存の検証手法は、意味的正確性を見越しながら、分布の整合性に大きく依存している。我々は,学習自由でセマンティックなアプローチであるリフレクティブ検証を提案し,正確性と効率のトレードオフを改善する。
論文参考訳（メタデータ） (2025-05-24T10:26:27Z)
Latent Veracity Inference for Identifying Errors in Stepwise Reasoning [78.29317733206643]
本稿では、精度割当てに対する離散探索アルゴリズムであるVeracity Search(VS)を紹介する。その他の方法では、後続の精度値よりも後続の分布において難解な推論を行う。 VSを一般化し、新しいコンテキストで正確なゼロショットの精度推論を可能にする。
論文参考訳（メタデータ） (2025-05-17T04:16:36Z)
SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator [65.62084602011596]
大規模言語モデル(LLM)は、自然言語処理タスクの範囲で例外的な性能を示した。特定の意味のないセパレータトークン(句読点)は意味的に意味のあるトークンと比較して注意点に不均等に寄与する。 SepLLMは,これらのセグメントを圧縮し,冗長なトークンを除去することによって推論を高速化する,プラグアンドプレイフレームワークである。
論文参考訳（メタデータ） (2024-12-16T18:58:57Z)
Exact Byte-Level Probabilities from Tokenized Language Models for FIM-Tasks and Model Ensembles [23.134664392314264]
トークン化は、言語モデル(LM)における多くの未理解の欠点と関連している。本研究は, トークン化がモデルとバイトレベルのモデルを比較し比較することによって, モデル性能に与える影響について検討する。本稿では,学習トークン分布と等価バイトレベル分布とのマッピングを確立するフレームワークであるByte-Token Representation Lemmaを紹介する。
論文参考訳（メタデータ） (2024-10-11T23:30:42Z)
SparseCL: Sparse Contrastive Learning for Contradiction Retrieval [87.02936971689817]
コントラディション検索(Contradiction Search)とは、クエリの内容に明示的に異を唱える文書を識別し、抽出することである。類似性探索やクロスエンコーダモデルといった既存の手法には、大きな制限がある。文間の微妙で矛盾したニュアンスを保存するために特別に訓練された文埋め込みを利用するSparseCLを導入する。
論文参考訳（メタデータ） (2024-06-15T21:57:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。