論文の概要: Rodimus*: Breaking the Accuracy-Efficiency Trade-Off with Efficient Attentions
- arxiv url: http://arxiv.org/abs/2410.06577v1
- Date: Wed, 09 Oct 2024 06:22:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:34:16.910616
- Title: Rodimus*: Breaking the Accuracy-Efficiency Trade-Off with Efficient Attentions
- Title(参考訳): Rodimus*: 効果的な注意による正確性効率のトレードオフを打破する
- Authors: Zhihao He, Hang Yu, Zi Gong, Shizhan Liu, Jianguo Li, Weiyao Lin,
- Abstract要約: RodimusはTransformerベースの大規模言語モデル(LLM)のための新しいタイプのアテンションシステムである。
Rodimusは、線形アテンションベースで純粋にリカレントなフレームワーク内で、データ依存のテンプレート選択機構を採用している。
実験の結果,1兆トークンでトレーニングしたRodimus$+$-1.6Bは,より多くのトークンでトレーニングしたモデルに対して,より優れたダウンストリーム性能を実現することがわかった。
- 参考スコア(独自算出の注目度): 26.025283259518936
- License:
- Abstract: Recent advancements in Transformer-based large language models (LLMs) have set new standards in natural language processing. However, the classical softmax attention incurs significant computational costs, leading to a $O(T)$ complexity for per-token generation, where $T$ represents the context length. This work explores reducing LLMs' complexity while maintaining performance by introducing Rodimus and its enhanced version, Rodimus$+$. Rodimus employs an innovative data-dependent tempered selection (DDTS) mechanism within a linear attention-based, purely recurrent framework, achieving significant accuracy while drastically reducing the memory usage typically associated with recurrent models. This method exemplifies semantic compression by maintaining essential input information with fixed-size hidden states. Building on this, Rodimus$+$ combines Rodimus with the innovative Sliding Window Shared-Key Attention (SW-SKA) in a hybrid approach, effectively leveraging the complementary semantic, token, and head compression techniques. Our experiments demonstrate that Rodimus$+$-1.6B, trained on 1 trillion tokens, achieves superior downstream performance against models trained on more tokens, including Qwen2-1.5B and RWKV6-1.6B, underscoring its potential to redefine the accuracy-efficiency balance in LLMs. Model code and pre-trained checkpoints will be available soon.
- Abstract(参考訳): トランスフォーマーベースの大規模言語モデル(LLM)の最近の進歩は、自然言語処理における新しい標準を定めている。
しかし、古典的なソフトマックスの注目は計算コストを大幅に上回っており、T$がコンテキスト長を表す場合、トーケン生成毎に$O(T)$の複雑さが生じる。
この作業では,Rodimusとその拡張バージョンであるRodimus$+$を導入して,LLMの複雑性の低減とパフォーマンスの維持について検討する。
Rodimusはリニアアテンションベースの純粋にリカレントなフレームワーク内で、革新的なデータ依存型テンプレート選択(DDTS)機構を採用しており、リカレントモデルに関連するメモリ使用量の大幅な削減を実現している。
本手法は,本質的な入力情報を固定サイズの隠蔽状態に維持することにより意味圧縮を実証する。
Rodimus$+は、Rodimusと革新的なSliding Window Shared-Key Attention (SW-SKA)をハイブリッドアプローチで組み合わせ、補完的なセマンティクス、トークン、ヘッド圧縮技術を効果的に活用する。
我々の実験は、1兆ドルのトークンで訓練されたRodimus$+$-1.6Bが、Qwen2-1.5BやRWKV6-1.6Bを含むより多くのトークンで訓練されたモデルに対して、より優れたダウンストリーム性能を実現し、LLMの精度・効率バランスを再定義する可能性を示している。
モデルコードと事前訓練されたチェックポイントが近く提供される。
関連論文リスト
- Autonomous Sparse Mean-CVaR Portfolio Optimization [6.358973724565783]
本稿では,従来のモデルを任意の精度で近似できる,革新的な自律スパース平均CVaRポートフォリオモデルを提案する。
そこで我々は,近似交互線形化最小化アルゴリズムとネストした固定点近接アルゴリズム(どちらも収束)を併用してモデルを反復的に解く手法を提案する。
論文 参考訳(メタデータ) (2024-05-13T15:16:22Z) - A Nearly Optimal and Low-Switching Algorithm for Reinforcement Learning
with General Function Approximation [66.26739783789387]
我々は、強化学習のための新しいアルゴリズム、MQL-UCBを用いたモノトニックQ-Learningを提案する。
MQL-UCBは、$tildeO(dsqrtHK)$の最小限の後悔を実現する。
本研究は,非線形関数近似を用いたサンプル効率およびデプロイメント効率のよいQ-ラーニングの設計に重点を置いている。
論文 参考訳(メタデータ) (2023-11-26T08:31:57Z) - Unleashing the Power of Pre-trained Language Models for Offline
Reinforcement Learning [54.682106515794864]
オフライン強化学習(RL)は、事前コンパイルされたデータセットを使用して、ほぼ最適ポリシーを見つけることを目的としている。
本稿では、オフラインRLに事前学習言語モデル(LM)を使用するための決定変換器に基づく一般的なフレームワークである、$textbfMo$tion Control用の$textbfLanguage Models(textbfLaMo$)を紹介する。
経験的な結果から、$textbfLaMo$はスパース・リワードタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-10-31T16:24:17Z) - Improving Sample Efficiency of Model-Free Algorithms for Zero-Sum Markov Games [66.2085181793014]
モデルフリーのステージベースQ-ラーニングアルゴリズムはモデルベースアルゴリズムと同じ$H$依存の最適性を享受できることを示す。
本アルゴリズムは,楽観的値関数と悲観的値関数のペアとして参照値関数を更新するキーとなる新しい設計を特徴とする。
論文 参考訳(メタデータ) (2023-08-17T08:34:58Z) - High-Level Parallelism and Nested Features for Dynamic Inference Cost
and Top-Down Attention [4.22580759425025]
本稿では,動的推論コストとトップダウンアテンション機構をシームレスに統合する新しいネットワークトポロジーを提案する。
人間の知覚からインスピレーションを得るため、汎用的な低レベル特徴の逐次処理と並列性と高レベルの特徴のネスト処理を組み合わせる。
動的推論コストの面では、我々の方法論は最大7,3.48,%のパラメータと84.41,%のギガ乗算累積(GMAC)演算を除外することができる。
論文 参考訳(メタデータ) (2023-08-09T08:49:29Z) - TransNormerLLM: A Faster and Better Large Language Model with Improved
TransNormer [34.790081960470964]
最初の線形注意に基づくLarge Language Model(LLM)であるTransNormerLLMを提案する。
我々は, 位置埋め込み, 線形注意加速度, ゲーティング機構, テンソル正規化, 推論加速度, 安定化など, 高度な修正を行う。
自己収集コーパス上に385M, 1B, 7Bの大きさの列車モデルとアブリケーションを用いてモデル設計を検証する。
論文 参考訳(メタデータ) (2023-07-27T16:45:33Z) - Provably Efficient Neural Offline Reinforcement Learning via Perturbed
Rewards [33.88533898709351]
VIPeRは、ランダム化された値関数のアイデアと悲観主義の原理を一致させる。
オフラインデータを複数回摂動することで、暗黙的に悲観性を得る。
ニューラルネットワーク関数近似を用いた一般的なマルコフ決定過程(MDP)において、証明可能かつ計算的に効率的である。
論文 参考訳(メタデータ) (2023-02-24T17:52:12Z) - Parameterization of Cross-Token Relations with Relative Positional
Encoding for Vision MLP [52.25478388220691]
視覚多層パーセプトロン(MLP)はコンピュータビジョンタスクにおいて有望な性能を示す。
トークンミキシングレイヤを使用して、トランスフォーマーが使用するマルチヘッド自己保持機構とは対照的に、クロストークンインタラクションをキャプチャする。
トークン混合のためのクロストークン関係を効率的に符号化する新しい位置空間ゲーティングユニット(PoSGU)を提案する。
論文 参考訳(メタデータ) (2022-07-15T04:18:06Z) - Binarizing by Classification: Is soft function really necessary? [4.329951775163721]
本稿では,二項分類問題としてネットワークバイナライゼーションに取り組むことを提案する。
また、ポーズ推定モデルの軽量化手法としてバイナライゼーションを用いる。
提案手法により,最大60.6ドルのmAPを初めて達成できる。
論文 参考訳(メタデータ) (2022-05-16T02:47:41Z) - Robust Implicit Networks via Non-Euclidean Contractions [63.91638306025768]
暗黙のニューラルネットワークは、精度の向上とメモリ消費の大幅な削減を示す。
彼らは不利な姿勢と収束の不安定さに悩まされる。
本論文は,ニューラルネットワークを高機能かつ頑健に設計するための新しい枠組みを提供する。
論文 参考訳(メタデータ) (2021-06-06T18:05:02Z) - Sparse Attention with Linear Units [60.399814410157425]
本稿では, ソフトマックスアクティベーションをReLUに置き換えることにより, 注目度を向上する新しい, 簡便な手法を提案する。
我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。
分析の結果,RELAは高い空間性率と頭部の多様性を達成でき,ソース・ターゲット単語アライメントの精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-04-14T17:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。