論文の概要: RADLADS: Rapid Attention Distillation to Linear Attention Decoders at Scale
- arxiv url: http://arxiv.org/abs/2505.03005v1
- Date: Mon, 05 May 2025 20:03:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.121245
- Title: RADLADS: Rapid Attention Distillation to Linear Attention Decoders at Scale
- Title(参考訳): RADLADS: 大規模リニアアテンションデコーダへの高速アテンション蒸留
- Authors: Daniel Goldstein, Eric Alcaide, Janna Lu, Eugene Cheah,
- Abstract要約: RADLADSは、ソフトマックスアテンション変換器を線形アテンションデコーダモデルに迅速に変換するためのプロトコルである。
我々の変換プロセスでは350~700万のトークンしか必要とせず、オリジナルの教師モデルを訓練するのに使われるトークンの0.005%以下である。
- 参考スコア(独自算出の注目度): 0.5937280131734116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Rapid Attention Distillation to Linear Attention Decoders at Scale (RADLADS), a protocol for rapidly converting softmax attention transformers into linear attention decoder models, along with two new RWKV-variant architectures, and models converted from popular Qwen2.5 open source models in 7B, 32B, and 72B sizes. Our conversion process requires only 350-700M tokens, less than 0.005% of the token count used to train the original teacher models. Converting to our 72B linear attention model costs less than \$2,000 USD at today's prices, yet quality at inference remains close to the original transformer. These models achieve state-of-the-art downstream performance across a set of standard benchmarks for linear attention models of their size. We release all our models on HuggingFace under the Apache 2.0 license, with the exception of our 72B models which are also governed by the Qwen License Agreement. Models at https://huggingface.co/collections/recursal/radlads-6818ee69e99e729ba8a87102 Training Code at https://github.com/recursal/RADLADS-paper
- Abstract(参考訳): 本稿では,RALADS(Rapid Attention Distillation to Linear Attention Decoders at Scale)という,ソフトマックスアテンショントランスフォーマーを線形アテンションデコーダモデルに変換するプロトコルと,RWKVの2つの新しいアーキテクチャ,および7B,32B,72Bサイズで人気のQwen2.5オープンソースモデルから変換されたモデルを提案する。
我々の変換プロセスでは350~700万のトークンしか必要とせず、オリジナルの教師モデルを訓練するのに使われるトークンの0.005%以下である。
72Bリニアアテンションモデルへの変換は、今日の価格で2000ドル以下だが、推論の質は元のトランスフォーマーに近いままだ。
これらのモデルは、その大きさの線形アテンションモデルのための一連の標準ベンチマークにおいて、最先端のダウンストリーム性能を達成する。
我々はApache 2.0ライセンスの下でHuggingFace上で、Qwen License Agreementによって管理されている72Bモデルを除いて、すべてのモデルをリリースしています。
https://huggingface.co/collections/recursal/radlads-6818ee69e729ba8a87102 Training Code at https://github.com/recursal/RADLADS-paper
関連論文リスト
- Nemotron-H: A Family of Accurate and Efficient Hybrid Mamba-Transformer Models [164.47008715747822]
ネモトロン-Hは8Bと56B/47Bハイブリッド・マンバ・トランスフォーマーのファミリーである。
私たちは共通のTransformerモデルアーキテクチャにおけるほとんどの自己注意レイヤをMambaレイヤに置き換えます。
Nemotron-Hモデルは、他の同様のサイズのオープンソーストランスフォーマーモデルと比較して、精度が良いか低いかのどちらかを提供する。
論文 参考訳(メタデータ) (2025-04-04T17:41:58Z) - Scaling Inference-Efficient Language Models [3.271571137474847]
モデルアーキテクチャは推論レイテンシに影響を与えており、同じサイズのモデルでは最大3.5倍のレイテンシの差が生じる可能性がある。
我々は、モデルパラメータ数、トレーニングトークンの数、モデルアーキテクチャを共最適化するために、Chinchillaスケーリングの法則を変更します。
我々はMorph-1Bモデルをリリースし、オープンソースモデルと比較して下流タスクの精度を保ちながら、推論遅延を1.8倍改善した。
論文 参考訳(メタデータ) (2025-01-30T03:16:44Z) - Align Attention Heads Before Merging Them: An Effective Way for Converting MHA to GQA [8.305827430948654]
キー-値ヘッドの圧縮比が全くないGQAモデルにMHAモデルをプルーニングするための低コストな手法を提案する。
我々の戦略は、LLaMA2-7Bモデルのキー値ヘッドの87.5%を、過剰な性能劣化を伴わずに圧縮することができる。
論文 参考訳(メタデータ) (2024-12-30T03:05:45Z) - Jasper and Stella: distillation of SOTA embedding models [8.708650717134008]
そこで本研究では,より小規模な学生埋め込みモデルにより,複数の教師埋め込みモデルを蒸留できる新しい多段階蒸留フレームワークを提案する。
我々は,Matryoshka Representation Learning(MRL)を用いて,学生埋め込みモデルのベクトル次元を効果的に削減する。
私たちの学生モデルは、Stella埋め込みモデルに基づく20億のパラメータを持つJasperという名前で、Massive Text Embedding Benchmarkのリーダーボードで3位を獲得しました。
論文 参考訳(メタデータ) (2024-12-26T04:05:28Z) - The Mamba in the Llama: Distilling and Accelerating Hybrid Models [76.64055251296548]
注目層からの線形射影重みを学術的なGPU資源で再利用することにより,大規模な変換器を線形RNNに蒸留する方法を示す。
結果として得られたハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。
また,Mambaとハイブリッドモデルの推論速度を高速化するハードウェア対応投機的復号アルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-08-27T17:56:11Z) - SDPose: Tokenized Pose Estimation via Circulation-Guide Self-Distillation [53.675725490807615]
SDPoseは小型変圧器モデルの性能向上のための新しい自己蒸留法である。
SDPose-Tは4.4Mパラメータと1.8 GFLOPを持つ69.7%のmAPを取得し、SDPose-S-V2はMSCOCO検証データセット上で73.5%のmAPを取得する。
論文 参考訳(メタデータ) (2024-04-04T15:23:14Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。