論文の概要: C2T: A Classifier-Based Tree Construction Method in Speculative Decoding
- arxiv url: http://arxiv.org/abs/2502.13652v1
- Date: Wed, 19 Feb 2025 11:57:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 14:01:30.847567
- Title: C2T: A Classifier-Based Tree Construction Method in Speculative Decoding
- Title(参考訳): C2T:投機復号における分類器に基づく木構築手法
- Authors: Feiye Huo, Jianchao Tan, Kefeng Zhang, Xunliang Cai, Shengli Sun,
- Abstract要約: 投機的復号法は、しばしばトークンツリーの構築や候補トークンの検証において非効率に直面する。
トークンツリーを動的に生成・生成するための軽量な分類器C2Tを提案する。
- 参考スコア(独自算出の注目度): 9.663330370149428
- License:
- Abstract: The growing scale of Large Language Models (LLMs) has exacerbated inference latency and computational costs. Speculative decoding methods, which aim to mitigate these issues, often face inefficiencies in the construction of token trees and the verification of candidate tokens. Existing strategies, including chain mode, static tree, and dynamic tree approaches, have limitations in accurately preparing candidate token trees for verification. We propose a novel method named C2T that adopts a lightweight classifier to generate and prune token trees dynamically. Our classifier considers additional feature variables beyond the commonly used joint probability to predict the confidence score for each draft token to determine whether it is the candidate token for verification. This method outperforms state-of-the-art (SOTA) methods such as EAGLE-2 on multiple benchmarks, by reducing the total number of candidate tokens by 25% while maintaining or even improving the acceptance length.
- Abstract(参考訳): LLM(Large Language Models)の規模は増大し、推論遅延と計算コストが増大した。
これらの問題を緩和することを目的とした投機的復号法は、しばしばトークンツリーの構築や候補トークンの検証において非効率に直面する。
チェーンモード、静的ツリー、動的ツリーアプローチを含む既存の戦略は、検証のための候補トークンツリーを正確に準備する際の制限がある。
トークンツリーを動的に生成・生成するための軽量な分類器C2Tを提案する。
我々の分類器は、一般的に使用される連立確率を超えて、各ドラフトトークンの信頼度を予測し、それが検証の候補トークンであるかどうかを判断するための追加の特徴変数を考察する。
この方法は、複数のベンチマークでEAGLE-2のような最先端(SOTA)手法より優れており、受け入れ長を維持したり改善したりしながら、候補トークンの総数を25%削減する。
関連論文リスト
- Order-agnostic Identifier for Large Language Model-based Generative Recommendation [94.37662915542603]
アイテムは、ユーザ履歴をエンコードし、次のアイテムを生成するために、LLM(Large Language Models)の識別子に割り当てられる。
既存のアプローチでは、トークンシーケンス識別子を使用して、アイテムを個別のトークンシーケンスとして表現するか、IDまたはセマンティック埋め込みを使用して単一トークン識別子を使用する。
本稿では,セマンティック・トークンライザを利用するSETRecを提案する。
論文 参考訳(メタデータ) (2025-02-15T15:25:38Z) - Turning Trash into Treasure: Accelerating Inference of Large Language Models with Token Recycling [53.58854856174773]
投機的復号化(英: Speculative decoding)は、推測と検証のパラダイムを通じて推論を加速するアプローチである。
トケンリサイクルは、候補トークンを隣接行列に格納し、幅優先探索アルゴリズムを用いる。
既存の列車不要の手法を30%上回り、訓練方法さえ25%上回っている。
論文 参考訳(メタデータ) (2024-08-16T12:20:56Z) - OPT-Tree: Speculative Decoding with Adaptive Draft Tree Structure [40.9990864658776]
投機的復号には、複数のトークンを1ステップで生成できるようにする"ドラフトと検証"機構が使用されている。
既存の手法は主に固定されたドラフト構造を採用しており、異なる状況に適応できない。
我々は適応的でスケーラブルなドラフトツリーを構築するアルゴリズムであるOPT-Treeを提案する。
論文 参考訳(メタデータ) (2024-06-25T04:45:53Z) - Recursive Speculative Decoding: Accelerating LLM Inference via Sampling
Without Replacement [11.91629418177851]
投機的復号法(英: Speculative decoding)は、大規模言語モデルの推論・加速度法である。
近年の作業では、草稿の伐採によってこの方法が進歩している。
再帰的投機的復号法(Recursive Speculative Decoding:RSD)を提案する。
論文 参考訳(メタデータ) (2024-02-21T22:57:49Z) - Tree-Planner: Efficient Close-loop Task Planning with Large Language Models [63.06270302774049]
Tree-Plannerは、大きな言語モデルでタスクプランニングを3つの異なるフェーズに再構成する。
Tree-Plannerは高い効率を維持しながら最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-12T17:59:50Z) - Tree Cross Attention [59.8891512435847]
Tree Cross Attention (TCA) は、Cross Attentionに基づくモジュールで、パラメータ $mathcalO(log(N))$ のトークン数からのみ情報を取得する。
さまざまな分類や不確実性回帰タスクに対して,TCAはクロスアテンションに匹敵する性能を示し,トークン効率は著しく向上した。
論文 参考訳(メタデータ) (2023-09-29T16:50:23Z) - Optimal randomized classification trees [0.0]
分類と回帰木(英: Classification and Regression Trees、CART)は、現代の統計学と機械学習における既成の技術である。
CARTはgreedyプロシージャによって構築され、分割予測変数と関連するしきい値を逐次決定する。
この強欲なアプローチは、木を非常に高速に木に分類するが、その性質上、それらの分類精度は他の最先端の手順と競合しないかもしれない。
論文 参考訳(メタデータ) (2021-10-19T11:41:12Z) - Complex Event Forecasting with Prediction Suffix Trees: Extended
Technical Report [70.7321040534471]
複合イベント認識(CER)システムは、イベントのリアルタイムストリーム上のパターンを"即時"検出する能力によって、過去20年間に人気が高まっている。
このような現象が実際にCERエンジンによって検出される前に、パターンがいつ発生するかを予測する方法が不足している。
複雑なイベント予測の問題に対処しようとする形式的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-01T09:52:31Z) - Robust Optimal Classification Trees under Noisy Labels [1.5039745292757671]
本稿では,学習サンプルにノイズラベルが存在することを考慮し,最適な分類木を構築するための新しい手法を提案する。
本手法は,(1)SVMのパラダイムを適用したクラス間の分離マージンを最大化するために,分類木の分割ルールを設計し,(2)ラベルノイズを検知しようとする木の構築中に,トレーニングサンプルのラベルを変更することを許している。
論文 参考訳(メタデータ) (2020-12-15T19:12:29Z) - Solving Long-tailed Recognition with Deep Realistic Taxonomic Classifier [68.38233199030908]
ロングテール認識は、現実世界のシナリオにおける自然な非一様分散データに取り組む。
モダンは人口密度の高いクラスではうまく機能するが、そのパフォーマンスはテールクラスでは著しく低下する。
Deep-RTCは、リアリズムと階層的予測を組み合わせたロングテール問題の新しい解法として提案されている。
論文 参考訳(メタデータ) (2020-07-20T05:57:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。