論文の概要: RecycleGPT: An Autoregressive Language Model with Recyclable Module
- arxiv url: http://arxiv.org/abs/2308.03421v2
- Date: Tue, 8 Aug 2023 07:58:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 15:55:35.406010
- Title: RecycleGPT: An Autoregressive Language Model with Recyclable Module
- Title(参考訳): RecycleGPT: リサイクル可能なモジュールを備えた自動回帰言語モデル
- Authors: Yufan Jiang, Qiaozhi He, Xiaomin Zhuang, Zhihua Wu, Kunpeng Wang,
Wenlai Zhao, Guangwen Yang
- Abstract要約: 高速な復号速度を持つ生成言語モデルであるRecycleGPTを提案する。
我々のアプローチは、隣接するトークンが通常強い相関を持つという観察に依存している。
実験と解析により、最大1.4倍のスピードアップを達成し、推論遅延を下げるアプローチの有効性が示された。
- 参考スコア(独自算出の注目度): 8.910477240340342
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing large language models have to run K times to generate a sequence of
K tokens. In this paper, we present RecycleGPT, a generative language model
with fast decoding speed by recycling pre-generated model states without
running the whole model in multiple steps. Our approach relies on the
observation that adjacent tokens in a sequence usually have strong correlations
and the next token in a sequence can be reasonably guessed or inferred based on
the preceding ones. Experiments and analysis demonstrate the effectiveness of
our approach in lowering inference latency, achieving up to 1.4x speedup while
preserving high performance.
- Abstract(参考訳): 既存の大きな言語モデルは、Kトークンのシーケンスを生成するためにK回実行する必要がある。
本稿では,複数のステップでモデル全体を動作させることなく,事前生成したモデル状態をリサイクルすることで,高速な復号化速度を持つ生成言語モデルRecycleGPTを提案する。
提案手法は,シーケンス内の隣接トークンは通常強い相関関係を持ち,シーケンス内の次のトークンは前列のトークンに基づいて合理的に推測あるいは推測できるという観測に基づく。
実験と解析により,提案手法が推論遅延を低減し,最大1.4倍の高速化を実現し,高い性能を維持した。
関連論文リスト
- COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Loop Neural Networks for Parameter Sharing [1.1049608786515839]
本稿では,モデルサイズを増大させることなく,より長い計算時間を活用することにより,より優れた性能を実現するループニューラルネットワークを提案する。
提案手法では,残差接続を持つモデルのサブセットを反復的にループすることで,入力を複数回再検討する。
本手法の有効性を,GPT-2とループモデルの比較実験により実証し,類似したパラメータ数を維持しつつ,言語モデリングタスクの性能向上を示す。
論文 参考訳(メタデータ) (2024-09-21T17:07:42Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Non-autoregressive Sequence-to-Sequence Vision-Language Models [63.77614880533488]
本稿では,デコーダ内の複数の推論経路をマージする並列デコードシーケンス・ツー・シーケンス・ビジョン言語モデルを提案する。
このモデルは最先端の自己回帰モデルと同等のパフォーマンスを実現するが、推論時間では高速である。
論文 参考訳(メタデータ) (2024-03-04T17:34:59Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Semi-Autoregressive Image Captioning [153.9658053662605]
画像キャプションに対する現在の最先端のアプローチは、通常自己回帰的手法を採用する。
連続的反復改善による非自己回帰画像キャプションは、かなりの加速を伴う自己回帰画像キャプションに匹敵する性能が得られる。
本稿では,性能と速度のトレードオフを改善するために,SAIC(Semi-Autoregressive Image Captioning)と呼ばれる新しい2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-11T15:11:54Z) - Fast Sequence Generation with Multi-Agent Reinforcement Learning [40.75211414663022]
機械翻訳では、すべての単語を並列に生成することで推論時間を高速化するノンオートレグレッシブデコードが提案されている。
我々は,非自己回帰的シーケンス生成(NAG)のための新しい訓練パラダイムを用いた簡易かつ効率的なモデルを提案する。
MSCOCOイメージキャプションベンチマークでは、NAG法は最先端のオートレグレッシブモデルに匹敵するパフォーマンスを実現し、13.9倍のデコード高速化を実現します。
論文 参考訳(メタデータ) (2021-01-24T12:16:45Z) - Learning to Recover from Multi-Modality Errors for Non-Autoregressive
Neural Machine Translation [38.123025955523836]
非自己回帰型ニューラルネットワーク翻訳(NAT)は、ターゲットシーケンス全体を同時に予測し、推論プロセスを著しく加速する。
本稿では,セグメントのシーケンスとして変換を生成する半自己回帰モデルRecoverSATを提案する。
セグメント長と繰り返し削除セグメントを動的に決定することにより、RecoverSATは繰り返しおよび欠落したトークンエラーから回復することができる。
広範に使用されている3つのベンチマークデータセットによる実験結果から,提案モデルでは,対応する自己回帰モデルと同等の性能を維持しつつ,4$times$の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2020-06-09T10:12:16Z) - LAVA NAT: A Non-Autoregressive Translation Model with Look-Around
Decoding and Vocabulary Attention [54.18121922040521]
非自己回帰翻訳(NAT)モデルは、1つの前方通過で複数のトークンを生成する。
これらのNATモデルは、しばしば多重性の問題に悩まされ、重複トークンや欠落トークンを生成する。
本稿では,この問題を解決するための新しい方法として,Look-Around(LA)戦略とVocabulary Attention(VA)メカニズムを提案する。
論文 参考訳(メタデータ) (2020-02-08T04:11:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。