論文の概要: ConfLayers: Adaptive Confidence-based Layer Skipping for Self-Speculative Decoding
- arxiv url: http://arxiv.org/abs/2604.14612v1
- Date: Thu, 16 Apr 2026 04:39:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.722534
- Title: ConfLayers: Adaptive Confidence-based Layer Skipping for Self-Speculative Decoding
- Title(参考訳): ConfLayers: 自己投機的デコーディングのためのアダプティブ信頼ベースのレイヤスキッピング
- Authors: Walaa Amer, Uday das, Fadi Kurdahi,
- Abstract要約: 自己投機的復号化(Self-speculative decoding)は、出力品質を犠牲にすることなく生成を高速化するように設計された大規模言語モデルの推論手法である。
本稿では,信頼度に基づく中間層スキップによる自己投機的デコーディングにおいて,動的プラグアンドプレイ方式であるConfLayersを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-speculative decoding is an inference technique for large language models designed to speed up generation without sacrificing output quality. It combines fast, approximate decoding using a compact version of the model as a draft model with selective re-evaluation by the full target model. Some existing methods form the draft model by dynamically learning which layers to skip during inference, effectively creating a smaller subnetwork to speed up computation. However, using heuristic-based approaches to select layers to skip can often be simpler and more effective. In this paper, we propose ConfLayers, a dynamic plug-and-play approach to forming the draft model in self-speculative decoding via confidence-based intermediate layer skipping. The process iteratively computes confidence scores for all layers, selects layers to skip based on an adaptive threshold, evaluates the performance of the resulting set, and updates the best selection until no further improvement is achieved or a maximum number of iterations is reached. This framework avoids the overhead and complexity of training a layer skipping policy and can provide more consistent speed-quality trade-offs while preserving the adaptivity of the draft model to diverse tasks and datasets. The performance evaluation of ConfLayers across different models and datasets shows that our novel approach offers up to 1.4x speedup over vanilla LLM generation.
- Abstract(参考訳): 自己投機的復号化(Self-speculative decoding)は、出力品質を犠牲にすることなく生成を高速化するように設計された大規模言語モデルの推論手法である。
モデルのコンパクトバージョンをドラフトモデルとして使用した高速で近似的な復号と、完全なターゲットモデルによる選択的な再評価を組み合わせる。
既存のメソッドは推論中にどのレイヤをスキップすべきかを動的に学習することでドラフトモデルを形成し、計算を高速化する小さなサブネットワークを効果的に生成する。
しかし、ラップするレイヤを選択するためにヒューリスティックなアプローチを使うことは、多くの場合、よりシンプルで効果的である。
本稿では,信頼度に基づく中間層スキップによる自己投機的復号化手法であるConfLayersを提案する。
プロセスは、すべてのレイヤに対する信頼スコアを反復的に計算し、適応しきい値に基づいてスキップするレイヤを選択し、結果セットのパフォーマンスを評価し、さらなる改善が得られないか、最大イテレーション数に達するまで最高の選択を更新する。
このフレームワークは、レイヤスキップポリシーをトレーニングするオーバーヘッドと複雑さを回避し、さまざまなタスクやデータセットへのドラフトモデルの適応性を維持しながら、より一貫性のあるスピード品質のトレードオフを提供する。
異なるモデルやデータセット間でConfLayerの性能評価を行った結果,バニラLLM生成よりも1.4倍の高速化を実現した。
関連論文リスト
- SpecBound: Adaptive Bounded Self-Speculation with Layer-wise Confidence Calibration [13.454534256560558]
投機的復号化は、大規模言語モデルにおける自己回帰推論を加速するための有望なアプローチとして現れている。
そこで本稿では, 早期終了判定において, 温度アニールによる急激な信頼を抑える, 新たなセルフドラフトフレームワークを提案する。
提案手法は,従来の自己回帰復号法に比べて最大2.33倍の高速化を実現する。
論文 参考訳(メタデータ) (2026-04-14T03:47:04Z) - Fast Inference via Hierarchical Speculative Decoding [65.40448210801763]
階層的投機的復号法(HSD)は,各モデルがトークンを提案し,次に大きなモデルが1つのフォワードパスで検証する階層構造に,ドラフトモデルを積み重ねるアルゴリズムである。
HSDは最高の単軸ベースラインよりも1.2倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2025-10-22T15:56:19Z) - Input Conditioned Layer Dropping in Speech Foundation Models [11.05223262950967]
層ドロップ(mathcalLD$)は、計算負荷を減らすために、推論中にバックボーンネットワークの層の一部をスキップする。
本稿では,ネットワークの入力機能と,処理層の最適組み合わせを決定するための軽量層選択ネットワークを用いた入力駆動$mathcalLD$を提案する。
論文 参考訳(メタデータ) (2025-07-10T17:39:03Z) - CLaSp: In-Context Layer Skip for Self-Speculative Decoding [20.800300833576035]
我々は、自己投機的復号化のためのコンテキスト内レイヤスキッピング戦略であるCLaSpを提案する。
以前の方法とは異なり、CLaSpは追加のドラフトモジュールや追加のトレーニングを必要としない。
CLaSpはLLaMA3シリーズモデルの1.3x 1.7xの高速化を実現する。
論文 参考訳(メタデータ) (2025-05-30T04:15:06Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Accelerating Inference in Large Language Models with a Unified Layer Skipping Strategy [67.45518210171024]
動的計算手法は、いくつかの計算層をスキップすることで、Large Language Models (LLM) に対する顕著な加速を示す。
対象の高速化率のみに基づいて計算をスキップする層数を選択する統一層スキーッピング戦略を提案する。
機械翻訳とテキスト要約という2つの共通タスクの実験結果は、目標速度比が与えられた場合、統一層スキーピング戦略は推論性能と実際のモデルスループットの両方を著しく向上させることを示している。
論文 参考訳(メタデータ) (2024-04-10T12:12:07Z) - Layer-wise Linear Mode Connectivity [52.6945036534469]
ニューラルネットワークパラメータの平均化は、2つの独立したモデルの知識の直感的な方法である。
フェデレートラーニングにおいて最も顕著に用いられている。
私たちは、単一グループやグループを平均化するモデルの性能を分析します。
論文 参考訳(メタデータ) (2023-07-13T09:39:10Z) - Improving Reliability of Fine-tuning with Block-wise Optimisation [6.83082949264991]
ファインタニングは知識を伝達することでドメイン固有のタスクに取り組むのに使うことができる。
本稿では,事前学習したモデルの層群を重み付けするブロックワイズ最適化機構を提案する。
提案されたアプローチは、頻繁に使用されるデータセットであるTf_flowerでテストされる。
論文 参考訳(メタデータ) (2023-01-15T16:20:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。