論文の概要: OverFill: Two-Stage Models for Efficient Language Model Decoding
- arxiv url: http://arxiv.org/abs/2508.08446v1
- Date: Mon, 11 Aug 2025 20:07:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.223361
- Title: OverFill: Two-Stage Models for Efficient Language Model Decoding
- Title(参考訳): OverFill: 効率的な言語モデルデコーディングのための2段階モデル
- Authors: Woojeong Kim, Junxiong Wang, Jing Nathan Yan, Mohamed Abdelfattah, Alexander M. Rush,
- Abstract要約: 大規模言語モデル(LLM)は多様なタスクにまたがって優れていますが、高い推論コストのため、デプロイメント上の大きな課題に直面しています。
プリフィルとデコードステージを分離し,精度と効率のトレードオフを最適化するOverFillを提案する。
我々の3B-to-1B OverFill構成は1Bプルーニングモデルを83.2%上回り、8B-to-3B構成は3Bプルーニングモデルを79.2%上回った。
- 参考スコア(独自算出の注目度): 68.68408155020568
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) excel across diverse tasks but face significant deployment challenges due to high inference costs. LLM inference comprises prefill (compute-bound) and decode (memory-bound) stages, with decode dominating latency particularly for long sequences. Current decoder-only models handle both stages uniformly, despite their distinct computational profiles. We propose OverFill, which decouples these stages to optimize accuracy-efficiency tradeoffs. OverFill begins with a full model for prefill, processing system and user inputs in parallel. It then switches to a dense pruned model, while generating tokens sequentially. Leveraging more compute during prefill, OverFill improves generation quality with minimal latency overhead. Our 3B-to-1B OverFill configuration outperforms 1B pruned models by 83.2%, while the 8B-to-3B configuration improves over 3B pruned models by 79.2% on average across standard benchmarks. OverFill matches the performance of same-sized models trained from scratch, while using significantly less training data. Our code is available at https://github.com/friendshipkim/overfill.
- Abstract(参考訳): 大規模言語モデル(LLM)は多様なタスクにまたがって優れていますが、高い推論コストのため、デプロイメント上の大きな課題に直面しています。
LLM推論はプリフィル(計算バウンド)とデコード(メモリバウンド)のステージで構成され、特に長いシーケンスにおいてデコードが支配的なレイテンシを持つ。
現在のデコーダのみのモデルは、異なる計算プロファイルにもかかわらず、両方のステージを均一に扱う。
精度と効率のトレードオフを最適化するために,これらのステージを分離するOverFillを提案する。
OverFillは、プリフィル、処理システム、およびユーザの入力を並列に行うための完全なモデルから始まる。
その後、密閉されたモデルに切り替え、トークンを逐次生成する。
プリフィル中により多くの計算を活用することで、OverFillは、最小のレイテンシオーバーヘッドで生成品質を改善する。
当社の3B-to-1B OverFill構成は1Bプルーニングモデルを83.2%上回り、8B-to-3B構成は標準ベンチマークの平均79.2%で3Bプルーニングモデルを改善している。
OverFillは、スクラッチからトレーニングされた同一サイズのモデルのパフォーマンスと、大幅に少ないトレーニングデータを使用する。
私たちのコードはhttps://github.com/friendshipkim/overfill.comで利用可能です。
関連論文リスト
- Pipette: Automatic Fine-grained Large Language Model Training Configurator for Real-World Clusters [5.190794062263327]
大規模言語モデル(LLM)の訓練は、膨大な計算能力とメモリ容量の要求のために困難であることが知られている。
本稿では,実世界のクラスタを対象としたLLM自動微粒化トレーニングであるPipetteを提案する。
論文 参考訳(メタデータ) (2024-05-28T11:59:44Z) - Training-Free Long-Context Scaling of Large Language Models [114.53296002607993]
我々は、Llama2 70Bが連続的なトレーニングなしで100k以上のトークンのコンテキストウィンドウをサポート可能なDual Chunk Attentionを提案する。
長いシーケンスの注意をチャンクベースのモジュールに分解することで、DCAはトークンの相対的な位置情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-02-27T12:39:23Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Efficiently Scaling Transformer Inference [8.196193683641582]
本稿では,トランスフォーマーモデルにおける効率的な生成推論の問題について,最も困難な設定の1つとして検討する。
我々は,TPU v4スライスに最適化された最適多次元分割手法を選択するための,推論効率の簡易な解析モデルを開発した。
我々は,入力トークンの大規模処理において,発生時に1トークンあたり29msの低バッチレイテンシを実現する(Int8重み量子化)。
論文 参考訳(メタデータ) (2022-11-09T18:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。