Fugu-MT 論文翻訳(概要): Retentive Network: A Successor to Transformer for Large Language Models

論文の概要: Retentive Network: A Successor to Transformer for Large Language Models

arxiv url: http://arxiv.org/abs/2307.08621v1
Date: Mon, 17 Jul 2023 16:40:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-18 12:18:38.454413
Title: Retentive Network: A Successor to Transformer for Large Language Models
Title（参考訳）: Retentive Network: 大規模言語モデルのためのトランスフォーマーの継承者
Authors: Yutao Sun, Li Dong, Shaohan Huang, Shuming Ma, Yuqing Xia, Jilong Xue, Jianyong Wang, Furu Wei
Abstract要約: 大規模言語モデルの基盤アーキテクチャとしてRetentive Network(RetNet)を提案する。理論的には、再発と注意の関係を導出する。言語モデリングの実験結果から、RetNetは優れたスケーリング結果、並列トレーニング、低コストなデプロイメント、効率的な推論を実現している。
参考スコア（独自算出の注目度）: 91.6652200825638
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we propose Retentive Network (RetNet) as a foundation architecture for large language models, simultaneously achieving training parallelism, low-cost inference, and good performance. We theoretically derive the connection between recurrence and attention. Then we propose the retention mechanism for sequence modeling, which supports three computation paradigms, i.e., parallel, recurrent, and chunkwise recurrent. Specifically, the parallel representation allows for training parallelism. The recurrent representation enables low-cost $O(1)$ inference, which improves decoding throughput, latency, and GPU memory without sacrificing performance. The chunkwise recurrent representation facilitates efficient long-sequence modeling with linear complexity, where each chunk is encoded parallelly while recurrently summarizing the chunks. Experimental results on language modeling show that RetNet achieves favorable scaling results, parallel training, low-cost deployment, and efficient inference. The intriguing properties make RetNet a strong successor to Transformer for large language models. Code will be available at https://aka.ms/retnet.
Abstract（参考訳）: 本研究では,大規模言語モデルの基盤アーキテクチャとしてRetentive Network(RetNet)を提案する。理論上は再発と注意の関係を導出する。次に,並列,リカレント,チャンク回りリカレントという3つの計算パラダイムをサポートするシーケンスモデリングのための保持機構を提案する。具体的には、並列表現は並列性を訓練することができる。リカレント表現は、低コストの$O(1)$推論を可能にし、パフォーマンスを犠牲にすることなく、デコードスループット、レイテンシ、GPUメモリを改善する。チャンクワイズ・リカレント表現は、各チャンクを並列に符号化し、チャンクを反復的に要約する、線形複雑性を伴う効率的なロングシーケンスモデリングを容易にする。言語モデリングの実験結果から、RetNetは優れたスケーリング結果、並列トレーニング、低コストデプロイメント、効率的な推論を実現している。 RetNetは大きな言語モデルのためのTransformerの強力な後継となる。コードはhttps://aka.ms/retnet.comから入手できる。

関連論文リスト

ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models [99.6720868215076]
適応並列推論のためのフレームワークThreadWeaverを紹介します。 ThreadWeaverは、同等サイズの一般的なシーケンシャル推論モデルと同等の精度を達成する。 ThreadWeaverはトークンのレイテンシの平均速度を最大1.53倍にします。
論文参考訳（メタデータ） (2025-11-24T18:55:59Z)
MesaNet: Sequence Modeling by Locally Optimal Test-Time Training [67.45211108321203]
我々は,最近提案されたMesa層の数値的に安定かつチャンクワイズ可能な並列化版を導入する。テストタイムの最適トレーニングにより、従来のRNNよりも言語モデリングの難易度が低く、ダウンストリームベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2025-06-05T16:50:23Z)
ParallelSpec: Parallel Drafter for Efficient Speculative Decoding [62.68430939686566]
提案するParallelSpecは,最先端の投機的復号化手法における自己回帰的起草戦略の代替となる。投機段階における自己回帰的起草とは対照的に,効率的な投機モデルとして機能する並列投機を訓練する。
論文参考訳（メタデータ） (2024-10-08T01:05:08Z)
Kraken: Inherently Parallel Transformers For Efficient Multi-Device Inference [8.527031391688283]
Krakenは、マルチデバイスシステムの効率的な推論のための標準的なTransformerアーキテクチャの進化である。 OpenWebTextでトレーニングすると、Krakenモデルは標準のTransformerと同じような難易度に達する。 SuperGLUEベンチマークでテストすると、Krakenはモデルサイズで平均35.6%のタイム・トゥ・ファースト・トークンをスピードアップする。
論文参考訳（メタデータ） (2024-08-14T20:24:03Z)
Efficient Parallel Reinforcement Learning Framework using the Reactor Model [2.190190313041532]
強化学習(RL)フレームワークは、RLワークロードを複数の計算リソースにマッピングするために不可欠である。 Rayのような既存のフレームワークは、このオーケストレーションを効率的に管理していない。我々は,アクターの集合が固定的な通信パターンを持つように強制するリアクターモデルを実装するソリューションを提案している。
論文参考訳（メタデータ） (2023-12-07T21:19:57Z)
RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文参考訳（メタデータ） (2023-05-22T13:57:41Z)
SWARM Parallelism: Training Large Models Can Be Surprisingly Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文参考訳（メタデータ） (2023-01-27T18:55:19Z)
TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。 TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文参考訳（メタデータ） (2021-02-16T07:34:32Z)
Parallel Training of Deep Networks with Local Updates [84.30918922367442]
ローカル並列性(Local Parallelism)は、グローバルバックプロパゲーションを切り捨てられたレイヤワイズバックプロパゲーションに置き換えることで、ディープネットワーク内の個々のレイヤのトレーニングを並列化するフレームワークである。我々は、様々なアーキテクチャセットにわたるビジョンと言語領域の両方で結果を示し、局所的並列性は特に高コンピュートなシステムにおいて有効であることを見出した。
論文参考訳（メタデータ） (2020-12-07T16:38:45Z)
Restructuring, Pruning, and Adjustment of Deep Models for Parallel Distributed Inference [15.720414948573753]
複数の処理ノード(ワーカ)上で既に訓練済みのディープモデルの並列実装について検討する。並列化モデル全体の性能を保証するレイヤワイドモデル再構成およびプルーニング手法であるRePurposeを提案する。既存の手法と比較して,RePurposeは並列実装による分散推論の効率を大幅に向上させることを示す。
論文参考訳（メタデータ） (2020-08-19T06:44:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。