論文の概要: Breaking the Autoregressive Chain: Hyper-Parallel Decoding for Efficient LLM-Based Attribute Value Extraction
- arxiv url: http://arxiv.org/abs/2604.26209v1
- Date: Wed, 29 Apr 2026 01:26:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.21257
- Title: Breaking the Autoregressive Chain: Hyper-Parallel Decoding for Efficient LLM-Based Attribute Value Extraction
- Title(参考訳): 自己回帰的連鎖を破る: 効率的なLCMに基づく属性値抽出のためのハイパーパラレルデコーディング
- Authors: Theodore Glavas, Nikhita Vedula, Dushyanta Dhyani, Yilun Zhu, Shervin Malmasi,
- Abstract要約: バッチ間で共有メモリと計算の両方を活用することでオフラインデコーディングを高速化する,新しいデコーディングアルゴリズムであるHyper-Parallel Decodingを提案する。
1つのプロンプトに複数のドキュメントを積み重ねることで、最大96個のトークンを並列にデコードできる。HPDは全てのLLMで動作し、最大13.8倍まで推論コストと総推測時間を削減できる。
- 参考スコア(独自算出の注目度): 18.43298105730062
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Some text generation tasks, such as Attribute Value Extraction (AVE), require decoding multiple independent sequences from the same document context. While standard autoregressive decoding is slow due to its sequential nature, the independence between output sequences offers an opportunity for parallelism. We present Hyper-Parallel Decoding, a novel decoding algorithm that accelerates offline decoding by leveraging both shared memory and computation across batches. HPD enables out-of-order token generation through position ID manipulation, significantly improving efficiency. Experiments on AVE show that attribute-value pairs are conditionally independent, enabling us to parallelize value generation within each prompt. By further stacking multiple documents within a single prompt, we can decode in parallel up to 96 tokens per prompt. HPD works with all LLMs, and reduces both inference costs and total inference time by up to 13.8X without compromising output quality, potentially saving hundreds of thousands of dollars on industry AVE tasks. Although designed for attribute extraction, HPD makes no assumptions unique to the AVE domain and can in theory be applied to other scenarios with independent output structures.
- Abstract(参考訳): 属性値抽出(AVE)のようなテキスト生成タスクでは、同じ文書コンテキストから複数の独立したシーケンスをデコードする必要がある。
通常の自己回帰復号法はそのシーケンシャルな性質のため遅いが、出力シーケンス間の独立性は並列化の機会を提供する。
バッチ間で共有メモリと計算の両方を活用することでオフラインデコーディングを高速化する,新しいデコーディングアルゴリズムであるHyper-Parallel Decodingを提案する。
HPDは位置ID操作による外部トークン生成を可能にし、効率を大幅に改善する。
AVEの実験は属性値対が条件独立であることを示し、各プロンプト内で値生成を並列化できるようにする。
ひとつのプロンプト内に複数のドキュメントを積み重ねることで、プロンプト毎に96トークンまで並列にデコードすることができます。
HPD は全ての LLM で動作し、推算コストと総推算時間を最大13.8倍に削減し、産業用 AVE のタスクに数十万ドルを節約できる可能性がある。
属性抽出のために設計されたが、HPDはAVEドメインに固有の仮定を持たず、理論的には独立した出力構造を持つ他のシナリオに適用できる。
関連論文リスト
- Dependency-Aware Parallel Decoding via Attention for Diffusion LLMs [8.800270601225668]
拡散LDMの並列復号化は,各復号化ステップがトークン単位の周縁分布のみを提供するため困難である。
本稿では、自己アテンションを用いて条件依存グラフを誘導する簡易な訓練不要な復号法である依存性認識並列復号法(DAPD)を提案する。
論文 参考訳(メタデータ) (2026-03-13T13:52:02Z) - Free Draft-and-Verification: Toward Lossless Parallel Decoding for Diffusion Large Language Models [8.407364705777587]
本稿では,DLLMに適した高速デコードアルゴリズムFree Draft-and-Verification(FreeDave)を紹介する。
FreeDaveは、パフォーマンスを低下させることなく、推論スループットを最大3.78倍に向上させることが証明されている。
論文 参考訳(メタデータ) (2025-09-30T21:28:04Z) - ASPD: Unlocking Adaptive Serial-Parallel Decoding by Exploring Intrinsic Parallelism in LLMs [34.477777651648914]
大規模言語モデル(LLM)は、自動回帰デコードパラダイムのため、推論遅延の大きな問題を生じさせる。
本稿では、並列化可能なデータの自動構築と効率的な並列化機構の2つの課題に対処する適応シリアル-パラレルデコーディング(ASPD)を提案する。
我々のフレームワークは、効率的なLCM並列推論のための基盤となるベンチマークを設定し、AIによるカスタマーサービスボットや回答検索エンジンのようなレイテンシに敏感なアプリケーションへのデプロイの道を開く。
論文 参考訳(メタデータ) (2025-08-12T12:35:55Z) - AdaDecode: Accelerating LLM Decoding with Adaptive Layer Parallelism [17.858104076062897]
大規模言語モデル (LLM) は、長いコンテンツ生成にますます使われている。
補助モデルや元のモデルパラメータの変更を必要とせずにデコーディングを高速化するAdaDecodeを提案する。
AdaDecodeは最大1.73倍のスピードアップで優れた復号処理を実現している。
論文 参考訳(メタデータ) (2025-06-04T08:32:30Z) - Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - MacLaSa: Multi-Aspect Controllable Text Generation via Efficient
Sampling from Compact Latent Space [110.85888003111653]
マルチアスペクト制御可能なテキスト生成は、複数の望ましい属性を同時に持つ流動文を生成することを目的としている。
マルチアスペクト制御のための新しいアプローチ、すなわちMacLaSaを導入し、複数の側面に対してコンパクトな潜在空間を推定する。
また,MacLaSaは,高い推論速度を維持しつつ,属性関連性やテキスト品質を高いベースラインで向上させることを示す。
論文 参考訳(メタデータ) (2023-05-22T07:30:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。