論文の概要: PaDeLLM-NER: Parallel Decoding in Large Language Models for Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2402.04838v5
- Date: Thu, 21 Nov 2024 06:52:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:17:10.082710
- Title: PaDeLLM-NER: Parallel Decoding in Large Language Models for Named Entity Recognition
- Title(参考訳): PaDeLLM-NER: 名前付きエンティティ認識のための大規模言語モデルにおける並列デコーディング
- Authors: Jinghui Lu, Ziwei Yang, Yanjie Wang, Xuejing Liu, Brian Mac Namee, Can Huang,
- Abstract要約: PaDeLLM-NERはすべての参照の同時復号化を可能にし、生成遅延を低減させる。
実験の結果、PaDeLLM-NERは英語と中国語の自己回帰手法の1.76倍から10.22倍の推論速度を著しく向上させることがわかった。
- 参考スコア(独自算出の注目度): 15.204703947024242
- License:
- Abstract: In this study, we aim to reduce generation latency for Named Entity Recognition (NER) with Large Language Models (LLMs). The main cause of high latency in LLMs is the sequential decoding process, which autoregressively generates all labels and mentions for NER, significantly increase the sequence length. To this end, we introduce Parallel Decoding in LLM for NE} (PaDeLLM-NER), a approach that integrates seamlessly into existing generative model frameworks without necessitating additional modules or architectural modifications. PaDeLLM-NER allows for the simultaneous decoding of all mentions, thereby reducing generation latency. Experiments reveal that PaDeLLM-NER significantly increases inference speed that is 1.76 to 10.22 times faster than the autoregressive approach for both English and Chinese. Simultaneously it maintains the quality of predictions as evidenced by the performance that is on par with the state-of-the-art across various datasets.
- Abstract(参考訳): 本研究では,Large Language Models (LLMs) を用いた Named Entity Recognition (NER) の生成遅延を低減することを目的とする。
LLMにおける高遅延の主な原因はシーケンシャルデコーディングプロセスであり、全てのラベルとNERへの言及を自動回帰的に生成し、シーケンス長を大幅に増加させる。
この目的のために,LLM for NE(PaDeLLM-NER)において並列デコーディングを導入する。
PaDeLLM-NERはすべての参照の同時復号化を可能にし、生成遅延を低減させる。
実験の結果、PaDeLLM-NERは英語と中国語の自己回帰手法の1.76倍から10.22倍の推論速度を著しく向上させることがわかった。
同時に、さまざまなデータセットにわたる最先端のパフォーマンスが示すように、予測の品質も維持する。
関連論文リスト
- COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Nearest Neighbor Speculative Decoding for LLM Generation and Attribution [87.3259169631789]
Nearest Speculative Decoding (NEST)は、任意の長さの実世界のテキストスパンをLM世代に組み込むことができ、それらのソースへの属性を提供する。
NESTは、様々な知識集約タスクにおいて、基本LMの生成品質と帰属率を大幅に向上させる。
さらに、NESTは、Llama-2-Chat 70Bに適用した場合の推論時間において1.8倍のスピードアップを達成することにより、生成速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-05-29T17:55:03Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Lossless Acceleration of Large Language Model via Adaptive N-gram Parallel Decoding [2.642212767247493]
適応的なN-gram並列デコーディング(ANPD)を導入し,複数のトークンを同時に生成することで推論を高速化する。
ANPDは、処理速度を向上しながら、元の出力の完全性を維持する。
実験では、LLaMAのようなモデルとその微調整されたモデルが3.67倍の速度向上を示した。
論文 参考訳(メタデータ) (2024-04-10T16:11:09Z) - Non-autoregressive Sequence-to-Sequence Vision-Language Models [63.77614880533488]
本稿では,デコーダ内の複数の推論経路をマージする並列デコードシーケンス・ツー・シーケンス・ビジョン言語モデルを提案する。
このモデルは最先端の自己回帰モデルと同等のパフォーマンスを実現するが、推論時間では高速である。
論文 参考訳(メタデータ) (2024-03-04T17:34:59Z) - Generation Meets Verification: Accelerating Large Language Model Inference with Smart Parallel Auto-Correct Decoding [11.832919020149891]
本研究の目的は,数十億のパラメータを持つ大規模言語モデル(LLM)の推論速度を高速化することである。
textbfSmart textbfParallel textbfAuto-textbfCorrect dtextbfEcoding (SPACE)を提案する。
論文 参考訳(メタデータ) (2024-02-19T03:39:10Z) - LightCAM: A Fast and Light Implementation of Context-Aware Masking based
D-TDNN for Speaker Verification [3.3800597813242628]
従来のTDNN(Time Delay Neural Networks)は、計算複雑性と推論速度の遅いコストで最先端のパフォーマンスを実現している。
本稿では,DSM(Deepwise Separable Convolution Module)とマルチスケール機能アグリゲーション(MFA)を併用した,高速かつ軽量なLightCAMを提案する。
論文 参考訳(メタデータ) (2024-02-08T21:47:16Z) - Fast Chain-of-Thought: A Glance of Future from Parallel Decoding Leads to Answers Faster [61.83949316226113]
FastCoTは並列デコーディングに基づくモデルに依存しないフレームワークである。
我々は、FastCoTが通常のアプローチと比較して、無視できる性能低下だけで、推論時間を20%近く削減できることを示します。
論文 参考訳(メタデータ) (2023-11-14T15:56:18Z) - SPEED: Speculative Pipelined Execution for Efficient Decoding [35.45955948053644]
本稿では,現在のトークンと並行して複数の将来トークンを投機的に実行することで,推論効率を向上させるSPEEDを提案する。
パラメータ共有を使用するTransformerデコーダでは、並列に実行されるトークンのメモリ操作を償却することができる。
モデル精度に対する遅延低減の観点から,本手法の有効性を実証し,パラメータ共有によるより深いデコーダのトレーニングを最小限のランタイムオーバーヘッドで行う方法を示した。
論文 参考訳(メタデータ) (2023-10-18T16:07:01Z) - Inference with Reference: Lossless Acceleration of Large Language Models [97.04200102556551]
LLMAは、参照によるLarge Language Model (LLM)推論を高速化するアクセラレータである。
LLMによる復号結果と実世界の多くのシナリオで利用できる参照との間には、多くの同一のテキストが存在していることが観察の動機となっている。
論文 参考訳(メタデータ) (2023-04-10T09:55:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。