Fugu-MT 論文翻訳(概要): CLLMs: Consistency Large Language Models

論文の概要: CLLMs: Consistency Large Language Models

arxiv url: http://arxiv.org/abs/2403.00835v4
Date: Thu, 13 Jun 2024 08:41:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-14 23:35:40.789942
Title: CLLMs: Consistency Large Language Models
Title（参考訳）: CLLMs: 一貫性のある大規模言語モデル
Authors: Siqi Kou, Lanxiang Hu, Zhezhi He, Zhijie Deng, Hao Zhang,
Abstract要約: Jacobiデコーディングは、従来の自己回帰(AR)デコーディングと比較して、ほとんどスピードアップしない。ヤコビ軌道上の任意の状態から固定点への高速収束を実現するための新しいアプローチを開発する。
参考スコア（独自算出の注目度）: 18.17892007267927
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Parallel decoding methods such as Jacobi decoding show promise for more efficient LLM inference as it breaks the sequential nature of the LLM decoding process and transforms it into parallelizable computation. However, in practice, it achieves little speedup compared to traditional autoregressive (AR) decoding, primarily because Jacobi decoding seldom accurately predicts more than one token in a single fixed-point iteration step. To address this, we develop a new approach aimed at realizing fast convergence from any state to the fixed point on a Jacobi trajectory. This is accomplished by refining the target LLM to consistently predict the fixed point given any state as input. Extensive experiments demonstrate the effectiveness of our method, showing 2.4$\times$ to 3.4$\times$ improvements in generation speed while preserving generation quality across both domain-specific and open-domain benchmarks.
Abstract（参考訳）: ヤコビ復号法のような並列復号法は、LCM復号プロセスのシーケンシャルな性質を破り、並列化可能な計算に変換するため、より効率的なLCM推論を約束する。しかし、実際には従来の自己回帰(AR)復号法と比べてほとんどスピードアップしないが、これは主にジャコビ復号法が1つの固定点反復ステップで1つ以上のトークンを正確に予測することが滅多にないためである。これを解決するために、ヤコビ軌道上の任意の状態から定点への高速収束を実現するための新しいアプローチを開発する。これは、任意の状態が入力として与えられた固定点を一貫して予測するために、目標LSMを精製することで達成される。拡張実験により,提案手法の有効性を実証し,22.4$\times$を3.4$\times$に改善し,ドメイン固有のベンチマークとオープンドメインベンチマークの両方で生成品質を保った。

関連論文リスト

Beyond Scattered Acceptance: Fast and Coherent Inference for DLMs via Longest Stable Prefixes [10.877713536966601]
Longestahead Prefix(LSP)スケジューラは、モノリシックプレフィックスの吸収に基づく、トレーニング不要でモデルに依存しない推論パラダイムである。 LSPは1つのフォワードパスを介してトークンの安定性を評価し、安定な予測の連続した左整列ブロックを動的に識別する。原子のコミットメントの前に、言語や構造的受容の境界を画定する。
論文参考訳（メタデータ） (2026-03-05T18:25:26Z)
Saber: An Efficient Sampling with Adaptive Acceleration and Backtracking Enhanced Remasking for Diffusion Language Model [98.35868970993232]
拡散言語モデル(DLM)は、支配的な自己回帰パラダイムに代わる強力で有望な選択肢として現れています。コード生成における推論速度と出力品質の向上を実現するために,適応加速度を用いた効率的なサンプリングとバックトラック強化リマッシング(セイバー)を導入する。
論文参考訳（メタデータ） (2025-10-20T23:38:12Z)
Accelerating Diffusion LLM Inference via Local Determinism Propagation [27.751279909685604]
LocalLeapは、トレーニング不要の適応並列デコード戦略である。 6.94$times$スループットの改善を実現し、デコード手順を元の要件の14.2%に短縮する。
論文参考訳（メタデータ） (2025-10-08T14:39:34Z)
dParallel: Learnable Parallel Decoding for dLLMs [77.24184219948337]
拡散大言語モデル(dLLM)は並列トークン予測と低推論遅延を提供する。既存のオープンソースモデルは、パフォーマンスを確保するためにトークン長のデコードステップをほとんど必要としています。高速サンプリングのためにdLLMs固有の並列性を解き放つシンプルで効果的な方法であるdParallelを導入する。
論文参考訳（メタデータ） (2025-09-30T16:32:52Z)
Diffusion Language Models Know the Answer Before Decoding [56.96815863705218]
拡散言語モデル (DLM) は自己回帰的アプローチの代替として登場した。我々の研究は、DLMの早期回答収束の見過ごされた特性を強調し、活用する。 Prophetは、早期コミット復号を可能にするトレーニングフリーの高速復号化パラダイムである。
論文参考訳（メタデータ） (2025-08-27T15:40:25Z)
Accelerating Diffusion LLMs via Adaptive Parallel Decoding [50.9948753314669]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。 APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文参考訳（メタデータ） (2025-05-31T06:10:10Z)
Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文参考訳（メタデータ） (2025-05-28T17:39:15Z)
LLM as Effective Streaming Processor: Bridging Streaming-Batch Mismatches with Group Position Encoding [29.586274567275012]
一般的に、後者の2つのミスマッチは頻繁な再エンコードを必要とし、再エンコード出力がほとんど不要であることを示す。本稿では,ストリーミングモードとバッチモードの整合性を高めるため,バッチアーキテクチャ上に構築されたグループ位置符号化パラダイムを提案する。提案手法はアーキテクチャの変更を必要とせず,ストリーミングモードとバッチモードの両方において強力な一般化を示す。
論文参考訳（メタデータ） (2025-05-22T17:53:28Z)
Speculative Decoding for Verilog: Speed and Quality, All in One [14.64921497909531]
本稿では,Verilogコード生成のための投機的復号法を提案する。標準的なトークン化方式とは異なり、我々の手法はデコード停止を構文的に重要なトークンと一致させる。実験の結果,Verilogのコード生成では最大5.05倍の高速化が達成された。
論文参考訳（メタデータ） (2025-03-18T11:21:53Z)
LLM4EFFI: Leveraging Large Language Models to Enhance Code Efficiency and Correctness [38.399282089600284]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを示している。 ulineLarge ulineLanguage ulineModel for Code ulineEfficiencyは、LLMが効率性と正確性の両方のバランスをとるコードを生成することができる新しいフレームワークである。
論文参考訳（メタデータ） (2025-02-17T07:01:18Z)
Real-time Verification and Refinement of Language Model Text Generation [60.04718679054704]
大規模言語モデル(LLM)は、幅広い自然言語タスクにおいて顕著な性能を示している。重要な課題は、時に事実的に誤った答えを生じさせることである。本稿では,LLM出力の検証と改善の効率化を目的とした新しい手法であるStreaming-VRを提案する。
論文参考訳（メタデータ） (2025-01-14T03:59:48Z)
FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文参考訳（メタデータ） (2024-10-27T15:53:49Z)
Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。 PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文参考訳（メタデータ） (2024-10-17T11:46:33Z)
COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文参考訳（メタデータ） (2024-10-12T23:56:19Z)
Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文参考訳（メタデータ） (2024-04-18T09:17:06Z)
SEED: Customize Large Language Models with Sample-Efficient Adaptation for Code Generation [35.88318116340547]
コード生成のための誤り駆動学習を用いたサンプル効率適応のためのSEEDという新しい適応手法を提案する。複数のコード生成ベンチマークでPass@1の平均相対改善率は54.7%である。
論文参考訳（メタデータ） (2024-02-29T16:09:02Z)
Chimera: A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens [15.566726645722657]
投機的サンプリングに特化して設計された新しいフレームワークを提案する。このフレームワーク内では、以前に生成されたトークンを効果的に活用し、後続の単語を予測する軽量なドラフトモデルを導入する。我々は、バニラ自動回帰復号方式と比較して平均遅延速度比が2.7倍になるという印象的な結果を示した。
論文参考訳（メタデータ） (2024-02-24T08:10:39Z)
Generation Meets Verification: Accelerating Large Language Model Inference with Smart Parallel Auto-Correct Decoding [11.832919020149891]
本研究の目的は,数十億のパラメータを持つ大規模言語モデル(LLM)の推論速度を高速化することである。 textbfSmart textbfParallel textbfAuto-textbfCorrect dtextbfEcoding (SPACE)を提案する。
論文参考訳（メタデータ） (2024-02-19T03:39:10Z)
Fast Chain-of-Thought: A Glance of Future from Parallel Decoding Leads to Answers Faster [61.83949316226113]
FastCoTは並列デコーディングに基づくモデルに依存しないフレームワークである。我々は、FastCoTが通常のアプローチと比較して、無視できる性能低下だけで、推論時間を20%近く削減できることを示します。
論文参考訳（メタデータ） (2023-11-14T15:56:18Z)
SPEED: Speculative Pipelined Execution for Efficient Decoding [35.45955948053644]
本稿では,現在のトークンと並行して複数の将来トークンを投機的に実行することで,推論効率を向上させるSPEEDを提案する。パラメータ共有を使用するTransformerデコーダでは、並列に実行されるトークンのメモリ操作を償却することができる。モデル精度に対する遅延低減の観点から,本手法の有効性を実証し,パラメータ共有によるより深いデコーダのトレーニングを最小限のランタイムオーバーヘッドで行う方法を示した。
論文参考訳（メタデータ） (2023-10-18T16:07:01Z)
Inference with Reference: Lossless Acceleration of Large Language Models [97.04200102556551]
LLMAは、参照によるLarge Language Model (LLM)推論を高速化するアクセラレータである。 LLMによる復号結果と実世界の多くのシナリオで利用できる参照との間には、多くの同一のテキストが存在していることが観察の動機となっている。
論文参考訳（メタデータ） (2023-04-10T09:55:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。