論文の概要: Speculative Contrastive Decoding
- arxiv url: http://arxiv.org/abs/2311.08981v1
- Date: Wed, 15 Nov 2023 14:15:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 15:43:41.069600
- Title: Speculative Contrastive Decoding
- Title(参考訳): 投機的コントラスト復号
- Authors: Hongyi Yuan, Keming Lu, Fei Huang, Zheng Yuan, Chang Zhou
- Abstract要約: 大規模言語モデル (LLM) は様々な言語タスクにおいて異常な性能を示した。
投機的復号法は、専門家モデルの生成を予測するためにアマチュアモデルを使用する。
高速復号法であるSCD(Speculative Contrastive Decoding)を提案する。
- 参考スコア(独自算出の注目度): 55.378200871224074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown extraordinary performance in various
language tasks, but high computational requirements hinder their widespread
deployment. Speculative decoding, which uses amateur models to predict the
generation of expert models, has been proposed as a way to accelerate LLM
inference. However, speculative decoding focuses on acceleration instead of
making the best use of the token distribution from amateur models. We proposed
Speculative Contrastive Decoding (SCD), an accelerated decoding method
leveraging the natural contrast between expert and amateur models in
speculative decoding. Comprehensive evaluations on four benchmarks show that
SCD can achieve similar acceleration factors as speculative decoding while
further improving the generation quality as the contrastive decoding. The
analysis of token probabilities further demonstrates the compatibility between
speculative and contrastive decoding. Overall, SCD provides an effective
approach to enhance the decoding quality of LLMs while saving computational
resources.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な言語タスクにおいて異常な性能を示したが、高い計算要求は、その広範な展開を妨げる。
LLM推論を高速化する手段として、アマチュアモデルを用いて専門家モデルの生成を予測する投機的復号法が提案されている。
しかし、投機的復号化は、アマチュアモデルからトークン分布を最大限に活用する代わりに、加速度に焦点を当てている。
我々は,投機的復号法において,専門家とアマチュアモデル間の自然なコントラストを利用した高速化復号法である投機的コントラスト復号法(scd)を提案する。
4つのベンチマークの総合的な評価は、SCDが投機的復号化と同様の加速係数を達成できると同時に、対照的な復号化として生成品質をさらに向上できることを示している。
トークン確率の解析は、投機的デコードと対比的デコードとの互換性をさらに示している。
全体として、SCDは計算資源を節約しながらLLMの復号品質を高める効果的なアプローチを提供する。
関連論文リスト
- E2LLM: Encoder Elongated Large Language Models for Long-Context Understanding and Reasoning [20.660297311025417]
E2LLM (Encodergated Large Language Models) は「不可能な三角形」を効果的にナビゲートする新しい手法である。
この手法では、長いコンテキストをチャンクに分割し、事前訓練されたテキストエンコーダを介してベクターに圧縮し、アダプタを使用してこれらの表現をデコーダのみのLLMで整列させる。
実験により、E2LLMは、事前訓練されたモデルとの効率、性能、互換性のバランスを保ちながら、長期コンテキストシナリオにおいて優れた性能を達成することが示された。
論文 参考訳(メタデータ) (2024-09-10T17:44:35Z) - Decoding at the Speed of Thought: Harnessing Parallel Decoding of Lexical Units for LLMs [57.27982780697922]
大規模言語モデルは、自然言語の理解と生成において例外的な能力を示した。
しかし、それらの生成速度は、その復号過程の本質的にシーケンシャルな性質によって制限される。
本稿では,データ駆動方式で実装された新しいデコーディング手法であるLexical Unit Decodingを紹介する。
論文 参考訳(メタデータ) (2024-05-24T04:35:13Z) - Chimera: A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens [15.566726645722657]
投機的サンプリングに特化して設計された新しいフレームワークを提案する。
このフレームワーク内では、以前に生成されたトークンを効果的に活用し、後続の単語を予測する軽量なドラフトモデルを導入する。
我々は、バニラ自動回帰復号方式と比較して平均遅延速度比が2.7倍になるという印象的な結果を示した。
論文 参考訳(メタデータ) (2024-02-24T08:10:39Z) - A Thorough Examination of Decoding Methods in the Era of LLMs [72.65956436513241]
復号法は、次世代の予測器から実用的なタスク解決器に言語モデルを変換する上で、必須の役割を果たす。
本稿では,大規模言語モデルの文脈における様々な復号法を包括的かつ多面的に分析する。
その結果,復号法の性能は特にタスク依存的であり,アライメント,モデルサイズ,量子化などの要因に影響されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-10T11:14:53Z) - Contrastive Decoding Improves Reasoning in Large Language Models [55.16503283583076]
コントラストデコーディングは,様々な推論タスクにおいて,グリージーデコーディングよりもアウト・オブ・ボックスの大幅な改善を実現することを示す。
本稿では,LLaMA-65BがHellaSwag Commonsense reasoning benchmark上でLLaMA 2, GPT-3.5, PaLM 2-Lより優れていることを示す。
論文 参考訳(メタデータ) (2023-09-17T00:29:32Z) - ContraCLM: Contrastive Learning For Causal Language Model [54.828635613501376]
トークンレベルとシーケンスレベルの両方において,新しいコントラスト学習フレームワークであるContraCLMを提案する。
ContraCLMは表現の識別を強化し、エンコーダのみのモデルとのギャップを埋めることを示す。
論文 参考訳(メタデータ) (2022-10-03T18:56:35Z) - Language-specific Characteristic Assistance for Code-switching Speech
Recognition [42.32330582682405]
デュアルエンコーダ構造は、2つの言語固有エンコーダ(LSE)をコードスイッチング音声認識にうまく利用している。
既存のメソッドはLSEに言語制約を持たず、LSMの言語固有の知識を未利用にしている。
上記の問題を緩和するための言語特化支援法(LSCA)を提案する。
論文 参考訳(メタデータ) (2022-06-29T13:39:51Z) - Examining Scaling and Transfer of Language Model Architectures for
Machine Translation [51.69212730675345]
言語モデル(LM)は単一のレイヤのスタックで処理し、エンコーダ・デコーダモデル(EncDec)は入力と出力の処理に別々のレイヤスタックを使用する。
機械翻訳において、EncDecは長年好まれてきたアプローチであるが、LMの性能についての研究はほとんどない。
論文 参考訳(メタデータ) (2022-02-01T16:20:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。