論文の概要: PaDeLLM-NER: Parallel Decoding in Large Language Models for Named Entity
Recognition
- arxiv url: http://arxiv.org/abs/2402.04838v4
- Date: Thu, 15 Feb 2024 01:52:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 12:14:29.143024
- Title: PaDeLLM-NER: Parallel Decoding in Large Language Models for Named Entity
Recognition
- Title(参考訳): PaDeLLM-NER: 名前付きエンティティ認識のための大規模言語モデルにおける並列デコーディング
- Authors: Jinghui Lu, Ziwei Yang, Yanjie Wang, Xuejing Liu, Brian Mac Namee, Can
Huang
- Abstract要約: PaDeLLM-NERはすべての参照の同時復号化を可能にし、生成遅延を低減させる。
実験の結果、PaDeLLM-NERは英語と中国語の自己回帰手法の1.76倍から10.22倍の推論速度を著しく向上させることがわかった。
- 参考スコア(独自算出の注目度): 16.11114486075643
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In this study, we aim to reduce generation latency for Named Entity
Recognition (NER) with Large Language Models (LLMs). The main cause of high
latency in LLMs is the sequential decoding process, which autoregressively
generates all labels and mentions for NER, significantly increase the sequence
length. To this end, we introduce Parallel Decoding in LLM for NE}
(PaDeLLM-NER), a approach that integrates seamlessly into existing generative
model frameworks without necessitating additional modules or architectural
modifications. PaDeLLM-NER allows for the simultaneous decoding of all
mentions, thereby reducing generation latency. Experiments reveal that
PaDeLLM-NER significantly increases inference speed that is 1.76 to 10.22 times
faster than the autoregressive approach for both English and Chinese.
Simultaneously it maintains the quality of predictions as evidenced by the
performance that is on par with the state-of-the-art across various datasets.
- Abstract(参考訳): 本研究では,Large Language Models (LLMs) を用いた Named Entity Recognition (NER) の生成遅延を低減することを目的とする。
LLMにおける高遅延の主な原因はシーケンシャルデコーディングプロセスであり、全てのラベルとNERへの言及を自動回帰的に生成し、シーケンス長を大幅に増加させる。
llm for ne} (padellm-ner)は、モジュールの追加やアーキテクチャの変更を必要とせず、既存の生成モデルフレームワークにシームレスに統合するアプローチである。
PaDeLLM-NERはすべての参照の同時復号化を可能にし、生成遅延を低減する。
実験の結果、PaDeLLM-NERは英語と中国語の自己回帰手法の1.76倍から10.22倍の推論速度を著しく向上させることがわかった。
同時に、さまざまなデータセットにわたる最先端のパフォーマンスが示すように、予測の品質も維持する。
関連論文リスト
- Non-autoregressive Sequence-to-Sequence Vision-Language Models [63.77614880533488]
本稿では,デコーダ内の複数の推論経路をマージする並列デコードシーケンス・ツー・シーケンス・ビジョン言語モデルを提案する。
このモデルは最先端の自己回帰モデルと同等のパフォーマンスを実現するが、推論時間では高速である。
論文 参考訳(メタデータ) (2024-03-04T17:34:59Z) - Think Big, Generate Quick: LLM-to-SLM for Fast Autoregressive Decoding [16.66039039507951]
大規模言語モデル(LLM)は、実際にはユビキタスなものとなり、翻訳、要約、命令の追従といった生成タスクに広く利用されている。
本稿では,異なるサイズの言語モデルを組み合わせて,自己回帰復号化の効率を高めるハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2024-02-26T18:59:28Z) - Generation Meets Verification: Accelerating Large Language Model
Inference with Smart Parallel Auto-Correct Decoding [12.538348206151424]
本研究の目的は,数十億のパラメータを持つ大規模言語モデル(LLM)の推論速度を高速化することである。
textbfSmart textbfParallel textbfAuto-textbfCorrect dtextbfEcoding (SPACE)を提案する。
論文 参考訳(メタデータ) (2024-02-19T03:39:10Z) - LightCAM: A Fast and Light Implementation of Context-Aware Masking based
D-TDNN for Speaker Verification [3.3800597813242628]
従来のTDNN(Time Delay Neural Networks)は、計算複雑性と推論速度の遅いコストで最先端のパフォーマンスを実現している。
本稿では,DSM(Deepwise Separable Convolution Module)とマルチスケール機能アグリゲーション(MFA)を併用した,高速かつ軽量なLightCAMを提案する。
論文 参考訳(メタデータ) (2024-02-08T21:47:16Z) - SPEED: Speculative Pipelined Execution for Efficient Decoding [35.45955948053644]
本稿では,現在のトークンと並行して複数の将来トークンを投機的に実行することで,推論効率を向上させるSPEEDを提案する。
パラメータ共有を使用するTransformerデコーダでは、並列に実行されるトークンのメモリ操作を償却することができる。
モデル精度に対する遅延低減の観点から,本手法の有効性を実証し,パラメータ共有によるより深いデコーダのトレーニングを最小限のランタイムオーバーヘッドで行う方法を示した。
論文 参考訳(メタデータ) (2023-10-18T16:07:01Z) - Inference with Reference: Lossless Acceleration of Large Language Models [97.04200102556551]
LLMAは、参照によるLarge Language Model (LLM)推論を高速化するアクセラレータである。
LLMによる復号結果と実世界の多くのシナリオで利用できる参照との間には、多くの同一のテキストが存在していることが観察の動機となっている。
論文 参考訳(メタデータ) (2023-04-10T09:55:14Z) - TMS: A Temporal Multi-scale Backbone Design for Speaker Embedding [60.292702363839716]
話者埋め込みのための現在のSOTAバックボーンネットワークは、話者表現のためのマルチブランチネットワークアーキテクチャを用いた発話からマルチスケール特徴を集約するように設計されている。
本稿では, 話者埋め込みネットワークにおいて, 計算コストの増大を伴わずに, マルチスケール分岐を効率的に設計できる効果的な時間的マルチスケール(TMS)モデルを提案する。
論文 参考訳(メタデータ) (2022-03-17T05:49:35Z) - SRU++: Pioneering Fast Recurrence with Attention for Speech Recognition [49.42625022146008]
複数のASRベンチマークでコンフォーマーと比較することにより,SRU++をASRタスクに適用する利点を示す。
具体的には,SRU++ が長文音声入力において Conformer を追い越すことができる。
論文 参考訳(メタデータ) (2021-10-11T19:23:50Z) - Highly Parallel Autoregressive Entity Linking with Discriminative
Correction [51.947280241185]
自己回帰リンクを全ての潜在的な言及に対して並列化する,非常に効率的な手法を提案する。
我々のモデルは以前の生成法より70倍高速で精度が高い。
論文 参考訳(メタデータ) (2021-09-08T17:28:26Z) - Fast Sequence Generation with Multi-Agent Reinforcement Learning [40.75211414663022]
機械翻訳では、すべての単語を並列に生成することで推論時間を高速化するノンオートレグレッシブデコードが提案されている。
我々は,非自己回帰的シーケンス生成(NAG)のための新しい訓練パラダイムを用いた簡易かつ効率的なモデルを提案する。
MSCOCOイメージキャプションベンチマークでは、NAG法は最先端のオートレグレッシブモデルに匹敵するパフォーマンスを実現し、13.9倍のデコード高速化を実現します。
論文 参考訳(メタデータ) (2021-01-24T12:16:45Z) - PolyDL: Polyhedral Optimizations for Creation of High Performance DL
primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。
我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。
また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-02T06:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。