Fugu-MT 論文翻訳(概要): RecycleGPT: An Autoregressive Language Model with Recyclable Module

論文の概要: RecycleGPT: An Autoregressive Language Model with Recyclable Module

arxiv url: http://arxiv.org/abs/2308.03421v2
Date: Tue, 8 Aug 2023 07:58:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-09 15:55:35.406010
Title: RecycleGPT: An Autoregressive Language Model with Recyclable Module
Title（参考訳）: RecycleGPT: リサイクル可能なモジュールを備えた自動回帰言語モデル
Authors: Yufan Jiang, Qiaozhi He, Xiaomin Zhuang, Zhihua Wu, Kunpeng Wang, Wenlai Zhao, Guangwen Yang
Abstract要約: 高速な復号速度を持つ生成言語モデルであるRecycleGPTを提案する。我々のアプローチは、隣接するトークンが通常強い相関を持つという観察に依存している。実験と解析により、最大1.4倍のスピードアップを達成し、推論遅延を下げるアプローチの有効性が示された。
参考スコア（独自算出の注目度）: 8.910477240340342
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Existing large language models have to run K times to generate a sequence of K tokens. In this paper, we present RecycleGPT, a generative language model with fast decoding speed by recycling pre-generated model states without running the whole model in multiple steps. Our approach relies on the observation that adjacent tokens in a sequence usually have strong correlations and the next token in a sequence can be reasonably guessed or inferred based on the preceding ones. Experiments and analysis demonstrate the effectiveness of our approach in lowering inference latency, achieving up to 1.4x speedup while preserving high performance.
Abstract（参考訳）: 既存の大きな言語モデルは、Kトークンのシーケンスを生成するためにK回実行する必要がある。本稿では,複数のステップでモデル全体を動作させることなく,事前生成したモデル状態をリサイクルすることで,高速な復号化速度を持つ生成言語モデルRecycleGPTを提案する。提案手法は,シーケンス内の隣接トークンは通常強い相関関係を持ち,シーケンス内の次のトークンは前列のトークンに基づいて合理的に推測あるいは推測できるという観測に基づく。実験と解析により,提案手法が推論遅延を低減し,最大1.4倍の高速化を実現し,高い性能を維持した。

関連論文リスト

Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation [63.89280381800457]
本稿では,離散トークンのモデリングをシンプルに保ちながら,連続トークンの強力な表現能力を維持するTokenBridgeを提案する。本稿では,各特徴次元を独立に離散化し,軽量な自己回帰予測機構と組み合わせた次元ワイド量子化戦略を提案する。提案手法は,標準的なカテゴリー予測を用いて,連続的手法と同等に再現および生成品質を実現する。
論文参考訳（メタデータ） (2025-03-20T17:59:59Z)
RefreshKV: Updating Small KV Cache During Long-form Generation [54.00118604124301]
生成中の入力トークンのサブセットに対して、完全なコンテキストアテンションとアテンションを柔軟に交互に交互に切り替える新しい推論手法RefreshKVを提案する。本手法をオフザシェルフ LLM に適用することにより,様々な長文生成タスクの性能を向上しつつ,エビクションベースの手法に匹敵する高速化を実現する。
論文参考訳（メタデータ） (2024-11-08T18:57:07Z)
COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文参考訳（メタデータ） (2024-10-12T23:56:19Z)
FutureFill: Fast Generation from Convolutional Sequence Models [20.70601085553854]
FutureFillは畳み込み演算子に基づく任意のシーケンス予測アルゴリズムのための汎用的な高速生成法である。深部畳み込みシーケンス予測モデルから生成する際の有効性を示す。
論文参考訳（メタデータ） (2024-10-02T15:22:08Z)
Loop Neural Networks for Parameter Sharing [1.1049608786515839]
本稿では,モデルサイズを増大させることなく,より長い計算時間を活用することにより,より優れた性能を実現するループニューラルネットワークを提案する。提案手法では,残差接続を持つモデルのサブセットを反復的にループすることで,入力を複数回再検討する。本手法の有効性を,GPT-2とループモデルの比較実験により実証し,類似したパラメータ数を維持しつつ,言語モデリングタスクの性能向上を示す。
論文参考訳（メタデータ） (2024-09-21T17:07:42Z)
Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文参考訳（メタデータ） (2024-04-18T09:17:06Z)
Non-autoregressive Sequence-to-Sequence Vision-Language Models [63.77614880533488]
本稿では,デコーダ内の複数の推論経路をマージする並列デコードシーケンス・ツー・シーケンス・ビジョン言語モデルを提案する。このモデルは最先端の自己回帰モデルと同等のパフォーマンスを実現するが、推論時間では高速である。
論文参考訳（メタデータ） (2024-03-04T17:34:59Z)
Scalable Learning of Latent Language Structure With Logical Offline Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文参考訳（メタデータ） (2023-05-31T16:47:20Z)
Semi-Autoregressive Image Captioning [153.9658053662605]
画像キャプションに対する現在の最先端のアプローチは、通常自己回帰的手法を採用する。連続的反復改善による非自己回帰画像キャプションは、かなりの加速を伴う自己回帰画像キャプションに匹敵する性能が得られる。本稿では,性能と速度のトレードオフを改善するために,SAIC(Semi-Autoregressive Image Captioning)と呼ばれる新しい2段階のフレームワークを提案する。
論文参考訳（メタデータ） (2021-10-11T15:11:54Z)
Fast Sequence Generation with Multi-Agent Reinforcement Learning [40.75211414663022]
機械翻訳では、すべての単語を並列に生成することで推論時間を高速化するノンオートレグレッシブデコードが提案されている。我々は,非自己回帰的シーケンス生成(NAG)のための新しい訓練パラダイムを用いた簡易かつ効率的なモデルを提案する。 MSCOCOイメージキャプションベンチマークでは、NAG法は最先端のオートレグレッシブモデルに匹敵するパフォーマンスを実現し、13.9倍のデコード高速化を実現します。
論文参考訳（メタデータ） (2021-01-24T12:16:45Z)
Learning to Recover from Multi-Modality Errors for Non-Autoregressive Neural Machine Translation [38.123025955523836]
非自己回帰型ニューラルネットワーク翻訳(NAT)は、ターゲットシーケンス全体を同時に予測し、推論プロセスを著しく加速する。本稿では,セグメントのシーケンスとして変換を生成する半自己回帰モデルRecoverSATを提案する。セグメント長と繰り返し削除セグメントを動的に決定することにより、RecoverSATは繰り返しおよび欠落したトークンエラーから回復することができる。広範に使用されている3つのベンチマークデータセットによる実験結果から,提案モデルでは,対応する自己回帰モデルと同等の性能を維持しつつ,4$times$の高速化を実現していることがわかった。
論文参考訳（メタデータ） (2020-06-09T10:12:16Z)
LAVA NAT: A Non-Autoregressive Translation Model with Look-Around Decoding and Vocabulary Attention [54.18121922040521]
非自己回帰翻訳(NAT)モデルは、1つの前方通過で複数のトークンを生成する。これらのNATモデルは、しばしば多重性の問題に悩まされ、重複トークンや欠落トークンを生成する。本稿では,この問題を解決するための新しい方法として,Look-Around(LA)戦略とVocabulary Attention(VA)メカニズムを提案する。
論文参考訳（メタデータ） (2020-02-08T04:11:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。