論文の概要: Rodimus*: Breaking the Accuracy-Efficiency Trade-Off with Efficient Attentions
- arxiv url: http://arxiv.org/abs/2410.06577v1
- Date: Wed, 9 Oct 2024 06:22:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 04:49:21.922240
- Title: Rodimus*: Breaking the Accuracy-Efficiency Trade-Off with Efficient Attentions
- Title(参考訳): Rodimus*: 効果的な注意による正確性効率のトレードオフを打破する
- Authors: Zhihao He, Hang Yu, Zi Gong, Shizhan Liu, Jianguo Li, Weiyao Lin,
- Abstract要約: RodimusはTransformerベースの大規模言語モデル(LLM)のための新しいタイプのアテンションシステムである。
Rodimusは、線形アテンションベースで純粋にリカレントなフレームワーク内で、データ依存のテンプレート選択機構を採用している。
実験の結果,1兆トークンでトレーニングしたRodimus$+$-1.6Bは,より多くのトークンでトレーニングしたモデルに対して,より優れたダウンストリーム性能を実現することがわかった。
- 参考スコア(独自算出の注目度): 26.025283259518936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Transformer-based large language models (LLMs) have set new standards in natural language processing. However, the classical softmax attention incurs significant computational costs, leading to a $O(T)$ complexity for per-token generation, where $T$ represents the context length. This work explores reducing LLMs' complexity while maintaining performance by introducing Rodimus and its enhanced version, Rodimus$+$. Rodimus employs an innovative data-dependent tempered selection (DDTS) mechanism within a linear attention-based, purely recurrent framework, achieving significant accuracy while drastically reducing the memory usage typically associated with recurrent models. This method exemplifies semantic compression by maintaining essential input information with fixed-size hidden states. Building on this, Rodimus$+$ combines Rodimus with the innovative Sliding Window Shared-Key Attention (SW-SKA) in a hybrid approach, effectively leveraging the complementary semantic, token, and head compression techniques. Our experiments demonstrate that Rodimus$+$-1.6B, trained on 1 trillion tokens, achieves superior downstream performance against models trained on more tokens, including Qwen2-1.5B and RWKV6-1.6B, underscoring its potential to redefine the accuracy-efficiency balance in LLMs. Model code and pre-trained checkpoints will be available soon.
- Abstract(参考訳): トランスフォーマーベースの大規模言語モデル(LLM)の最近の進歩は、自然言語処理における新しい標準を定めている。
しかし、古典的なソフトマックスの注目は計算コストを大幅に上回っており、T$がコンテキスト長を表す場合、トーケン生成毎に$O(T)$の複雑さが生じる。
この作業では,Rodimusとその拡張バージョンであるRodimus$+$を導入して,LLMの複雑性の低減とパフォーマンスの維持について検討する。
Rodimusはリニアアテンションベースの純粋にリカレントなフレームワーク内で、革新的なデータ依存型テンプレート選択(DDTS)機構を採用しており、リカレントモデルに関連するメモリ使用量の大幅な削減を実現している。
本手法は,本質的な入力情報を固定サイズの隠蔽状態に維持することにより意味圧縮を実証する。
Rodimus$+は、Rodimusと革新的なSliding Window Shared-Key Attention (SW-SKA)をハイブリッドアプローチで組み合わせ、補完的なセマンティクス、トークン、ヘッド圧縮技術を効果的に活用する。
我々の実験は、1兆ドルのトークンで訓練されたRodimus$+$-1.6Bが、Qwen2-1.5BやRWKV6-1.6Bを含むより多くのトークンで訓練されたモデルに対して、より優れたダウンストリーム性能を実現し、LLMの精度・効率バランスを再定義する可能性を示している。
モデルコードと事前訓練されたチェックポイントが近く提供される。
関連論文リスト
- Training a neural netwok for data reduction and better generalization [7.545668088790516]
スパース学習者の動機は、優れた一般化に必要なものだけを選択することで入力(特徴)を圧縮することである。
人工的な特徴の選択により,無関係な特徴を無視する段階から,それらを取り出す段階へ,顕著な段階的変化を示す。
このアプローチは、高次元データを意味のある罰則のコンパクトで解釈可能な部分集合に解釈するために圧縮された特徴を検知する形態であると見なすことができる。
論文 参考訳(メタデータ) (2024-11-26T07:41:15Z) - CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction [77.8576094863446]
本稿では,新しいdetextbfCoupled dutextbfAl-interactive lineatextbfR atttextbfEntion (CARE) 機構を提案する。
まず,非対称な特徴分離戦略を提案し,非対称的に学習プロセスを局所帰納バイアスと長距離依存に分解する。
分離学習方式を採用し,特徴間の相補性を完全に活用することにより,高い効率性と精度を両立させることができる。
論文 参考訳(メタデータ) (2024-11-25T07:56:13Z) - Features that Make a Difference: Leveraging Gradients for Improved Dictionary Learning [4.051777802443125]
スパースオートエンコーダ(SAE)は、ニューラルネットワーク表現を抽出するための有望なアプローチである。
我々は、TopKアクティベーション関数を増強することにより、$k$-sparseのオートエンコーダアーキテクチャを変更するGradient SAEを紹介する。
g-SAEが任意の文脈でモデルを操る上で平均的に効果的である潜伏者を学ぶ証拠が見つかる。
論文 参考訳(メタデータ) (2024-11-15T18:03:52Z) - NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - A Training-free Sub-quadratic Cost Transformer Model Serving Framework With Hierarchically Pruned Attention [43.211427581302715]
大規模言語モデルにおける文脈長を増大させるため,HiP(Hierarchically Pruned Attention)を提案する。
HiPは注意機構の時間的複雑さを$O(T log T)$に減らし、空間的複雑さを$O(T)$に減らし、$T$はシーケンス長である。
HiPは, 劣化を最小限に抑えつつ, プリフィルとデコードの両方のレイテンシとメモリ使用率を著しく低減することを示す。
論文 参考訳(メタデータ) (2024-06-14T08:32:45Z) - A Nearly Optimal and Low-Switching Algorithm for Reinforcement Learning
with General Function Approximation [66.26739783789387]
我々は、強化学習のための新しいアルゴリズム、MQL-UCBを用いたモノトニックQ-Learningを提案する。
MQL-UCBは、$tildeO(dsqrtHK)$の最小限の後悔を実現する。
本研究は,非線形関数近似を用いたサンプル効率およびデプロイメント効率のよいQ-ラーニングの設計に重点を置いている。
論文 参考訳(メタデータ) (2023-11-26T08:31:57Z) - Unleashing the Power of Pre-trained Language Models for Offline
Reinforcement Learning [54.682106515794864]
オフライン強化学習(RL)は、事前コンパイルされたデータセットを使用して、ほぼ最適ポリシーを見つけることを目的としている。
本稿では、オフラインRLに事前学習言語モデル(LM)を使用するための決定変換器に基づく一般的なフレームワークである、$textbfMo$tion Control用の$textbfLanguage Models(textbfLaMo$)を紹介する。
経験的な結果から、$textbfLaMo$はスパース・リワードタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-10-31T16:24:17Z) - CoTFormer: A Chain-of-Thought Driven Architecture with Budget-Adaptive Computation Cost at Inference [36.753384415107774]
言語モデルをより大きく、より深く拡張することで、パフォーマンスが大幅に向上した。
トークンレベルでのChain-of-Thought(CoT)を忠実に模倣する新しいアーキテクチャであるCoTFormerを提案する。
精度を下げることなく計算コストを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2023-10-16T21:37:34Z) - Parameterization of Cross-Token Relations with Relative Positional
Encoding for Vision MLP [52.25478388220691]
視覚多層パーセプトロン(MLP)はコンピュータビジョンタスクにおいて有望な性能を示す。
トークンミキシングレイヤを使用して、トランスフォーマーが使用するマルチヘッド自己保持機構とは対照的に、クロストークンインタラクションをキャプチャする。
トークン混合のためのクロストークン関係を効率的に符号化する新しい位置空間ゲーティングユニット(PoSGU)を提案する。
論文 参考訳(メタデータ) (2022-07-15T04:18:06Z) - Binarizing by Classification: Is soft function really necessary? [4.329951775163721]
本稿では,二項分類問題としてネットワークバイナライゼーションに取り組むことを提案する。
また、ポーズ推定モデルの軽量化手法としてバイナライゼーションを用いる。
提案手法により,最大60.6ドルのmAPを初めて達成できる。
論文 参考訳(メタデータ) (2022-05-16T02:47:41Z) - Sparse Attention with Linear Units [60.399814410157425]
本稿では, ソフトマックスアクティベーションをReLUに置き換えることにより, 注目度を向上する新しい, 簡便な手法を提案する。
我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。
分析の結果,RELAは高い空間性率と頭部の多様性を達成でき,ソース・ターゲット単語アライメントの精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-04-14T17:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。