Fugu-MT 論文翻訳(概要): APAR: LLMs Can Do Auto-Parallel Auto-Regressive Decoding

論文の概要: APAR: LLMs Can Do Auto-Parallel Auto-Regressive Decoding

arxiv url: http://arxiv.org/abs/2401.06761v1
Date: Fri, 12 Jan 2024 18:50:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-15 18:34:31.041018
Title: APAR: LLMs Can Do Auto-Parallel Auto-Regressive Decoding
Title（参考訳）: APAR: LLMは自動並列自動回帰デコードが可能
Authors: Mingdao Liu and Aohan Zeng and Bowen Wang and Peng Zhang and Jie Tang and Yuxiao Dong
Abstract要約: 自動回帰復号化は、ほとんどの大規模言語モデル(LLM)がテキストを生成する方法の基本である。階層構造を含む一般的なドメインデータに対して,並列自動回帰生成法を導入する。 APAR単独で最大2倍のスピードアップを達成でき、投機的復号と組み合わせると最大4倍のスピードアップを達成することができる。
参考スコア（独自算出の注目度）: 32.87189916876813
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The massive adoption of large language models (LLMs) demands efficient deployment strategies. However, the auto-regressive decoding process, which is fundamental to how most LLMs generate text, poses challenges to achieve efficient serving. In this work, we introduce a parallel auto-regressive generation method. By instruct-tuning on general domain data that contains hierarchical structures, we enable LLMs to independently plan their generation process and perform auto-parallel auto-regressive (APAR) generation, significantly reducing the number of generation steps. APAR alone can achieve up to 2x speed-up, and when combined with speculative decoding, the speed-up can reach up to 4x. In addition, APAR reduces the key-value cache consumption and attention computation during generation. This leads to a throughput increase of 20-70% and a latency reduce of 20-35% in high-throughput scenarios, compared to state-of-the-art serving frameworks.
Abstract（参考訳）: 大規模言語モデル(LLM)の大規模な採用は、効率的なデプロイメント戦略を必要とする。しかし、ほとんどのLLMがテキストを生成する方法の基本である自動回帰復号処理は、効率的なサービスを実現するための課題を提起する。本研究では,並列自動回帰生成手法を提案する。階層構造を含む一般的なドメインデータをインストラクションすることで、LCMは独立して生成プロセスを計画し、自動並列自動回帰(APAR)生成を実行でき、生成ステップの数を大幅に削減できる。 APARだけで最大2倍のスピードアップが達成でき、投機的復号と組み合わせると最大4倍のスピードアップが得られる。さらに、APARは生成中のキー値キャッシュの消費と注意計算を減らす。これにより、スループットが20～70%向上し、高スループットシナリオではレイテンシが20～35%削減される。

関連論文リスト

Accelerating Diffusion LLMs via Adaptive Parallel Decoding [50.9948753314669]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。 APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文参考訳（メタデータ） (2025-05-31T06:10:10Z)
Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文参考訳（メタデータ） (2025-05-28T17:39:15Z)
SplitFrozen: Split Learning with Device-side Model Frozen for Fine-Tuning LLM on Heterogeneous Resource-Constrained Devices [15.790762116995845]
プライベート、オンデバイスデータに基づく細調整された大型言語モデル(LLM)は、パーソナライズされたパーソナライズされたAIエージェントを強化することができる。本稿では,資源制約のあるエッジデバイス上で効率的な微調整を可能にする分割学習フレームワークSplitFrozenを提案する。 MRPC、MNLIマッチング、SST-2データセットによるGPT-2の実験では、極めて不均衡なデータの下で、SplitFrozenはFedLoRAとSplitLoRAの精度を69.4%上回っている。
論文参考訳（メタデータ） (2025-03-23T08:03:44Z)
DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。 DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文参考訳（メタデータ） (2024-11-04T18:26:08Z)
Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [63.603861880022954]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。 Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文参考訳（メタデータ） (2024-10-24T06:36:12Z)
EasyRAG: Efficient Retrieval-Augmented Generation Framework for Automated Network Operations [24.142649256624082]
本稿では,自動ネットワーク操作のためのシンプルで軽量で効率的な検索拡張生成フレームワークであるEasyRAGを提案する。私たちのフレームワークには3つの利点があります。第2の方法は,BM25検索とBGE-Rerankerのリグレードから成り,どのモデルも微調整する必要がなく,最小限のVRAMを占有し,デプロイが容易で,高度にスケーラブルである。最後のものは効率的な推論であり、我々は粗いランク付け、再ランク付け、生成プロセス全体の効率的な推論促進スキームを設計した。
論文参考訳（メタデータ） (2024-10-14T09:17:43Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。 A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文参考訳（メタデータ） (2024-06-15T09:31:03Z)
ShiftAddLLM: Accelerating Pretrained LLMs via Post-Training Multiplication-Less Reparameterization [13.622268474310918]
ShiftAddLLMは大規模言語モデルの効率的な乗算自由モデルである。 5.6および22.7ポイントのパープレキシティ改善を同等または低いレイテンシで達成する。 5つのLLMファミリーと8つのタスクの実験は、ShiftAddLLMの有効性を一貫して検証している。
論文参考訳（メタデータ） (2024-06-10T02:47:55Z)
FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文参考訳（メタデータ） (2024-04-05T02:35:43Z)
Think Big, Generate Quick: LLM-to-SLM for Fast Autoregressive Decoding [15.723047976314751]
大規模言語モデル(LLM)は、実際にはユビキタスなものとなり、翻訳、要約、命令の追従といった生成タスクに広く利用されている。本稿では,異なるサイズの言語モデルを組み合わせて,自己回帰復号化の効率を高めるハイブリッド手法を提案する。
論文参考訳（メタデータ） (2024-02-26T18:59:28Z)
Generation Meets Verification: Accelerating Large Language Model Inference with Smart Parallel Auto-Correct Decoding [11.832919020149891]
本研究の目的は,数十億のパラメータを持つ大規模言語モデル(LLM)の推論速度を高速化することである。 textbfSmart textbfParallel textbfAuto-textbfCorrect dtextbfEcoding (SPACE)を提案する。
論文参考訳（メタデータ） (2024-02-19T03:39:10Z)
Break the Sequential Dependency of LLM Inference Using Lookahead Decoding [27.87483106859749]
Lookahead decodingは、大規模言語モデル(LLM)のための正確な並列デコーディングアルゴリズムである。実装により,MT-benchでは1.8倍,コード補完タスクでは4倍まで高速に自動回帰復号を行うことができる。
論文参考訳（メタデータ） (2024-02-03T06:37:50Z)
Fast Chain-of-Thought: A Glance of Future from Parallel Decoding Leads to Answers Faster [61.83949316226113]
FastCoTは並列デコーディングに基づくモデルに依存しないフレームワークである。我々は、FastCoTが通常のアプローチと比較して、無視できる性能低下だけで、推論時間を20%近く削減できることを示します。
論文参考訳（メタデータ） (2023-11-14T15:56:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。