論文の概要: Millions of States: Designing a Scalable MoE Architecture with RWKV-7 Meta-learner
- arxiv url: http://arxiv.org/abs/2504.08247v1
- Date: Fri, 11 Apr 2025 04:14:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:20:05.965072
- Title: Millions of States: Designing a Scalable MoE Architecture with RWKV-7 Meta-learner
- Title(参考訳): 数百万の国:RWKV-7メタリアナでスケーラブルなMoEアーキテクチャを設計する
- Authors: Liu Xiao, Li Zhiyuan, Lin Yueyu,
- Abstract要約: RWKV-7のような状態ベースのシーケンスモデルは、Transformerアーキテクチャの魅力的な代替手段を提供する。
RWKV-7の新たな拡張である textbfMeta-State を提案する。
- 参考スコア(独自算出の注目度): 0.747193191854175
- License:
- Abstract: State-based sequence models like RWKV-7 offer a compelling alternative to Transformer architectures, achieving linear complexity while demonstrating greater expressive power in short-context scenarios and enabling state tracking beyond the \(\text{TC}^0\) complexity class. However, RWKV-7 lacks mechanisms for token-parameter interactions and native scalability, limiting its adaptability and growth without retraining. In this paper, we propose \textbf{Meta-State}, a novel extension to RWKV-7 that replaces attention mechanisms with a fully state-driven approach, integrating token-parameter interactions through a \textbf{Self-State Encoder} (SSE) mechanism. The SSE repurposes a portion of the RWKV-7 Weighted Key-Value (WKV) state as transformation weights to encode token-parameter interactions in a linear, state-driven manner without introducing new trainable matrices or softmax operations, while preserving the autoregressive property of token processing. Meta-State supports progressive model scaling by expanding the WKV state and parameter tokens, reusing existing parameters without retraining. Our approach bridges the gap between state-based modeling, token-parameter interactions, and scalable architectures, offering a flexible framework for efficient and adaptable sequence modeling with linear complexity and constant memory usage.
- Abstract(参考訳): RWKV-7のような状態ベースのシーケンスモデルは、トランスフォーマーアーキテクチャの魅力的な代替手段を提供し、線形複雑性を実現し、短いコンテキストシナリオで表現力を高め、(\text{TC}^0\)複雑性クラスを超えた状態追跡を可能にする。
しかし、RWKV-7はトークンとパラメータの相互作用とネイティブスケーラビリティのメカニズムが欠如しており、再トレーニングなしに適応性と成長を制限している。
本稿では,RWKV-7 の新たな拡張である \textbf{Meta-State} を提案する。
SSEは、RWKV-7重み付きキーバリュー(WKV)状態の一部を変換ウェイトとして再利用し、トークン処理の自己回帰性を保ちながら、新しいトレーニング可能な行列やソフトマックス操作を導入することなく、トークンとパラメータの相互作用を線形に符号化する。
Meta-Stateは、WKV状態とパラメータトークンを拡張し、既存のパラメータを再トレーニングせずに再利用することで、プログレッシブモデルスケーリングをサポートする。
当社のアプローチは、状態ベースモデリング、トークンパラメータ間相互作用、スケーラブルアーキテクチャのギャップを埋め、線形複雑性と定常メモリ使用量を備えた効率的で適応可能なシーケンスモデリングのための柔軟なフレームワークを提供する。
関連論文リスト
- Tensor Product Attention Is All You Need [54.40495407154611]
プロダクトアテンション(TPA)は、テンソル分解を使用してクエリ、キー、値をコンパクトに表現する新しいアテンションメカニズムである。
TPAは、メモリ効率とともに改善されたモデル品質を実現する。
本稿では,シーケンスモデリングのための新しいモデルアーキテクチャであるProducT ATTion Transformer (T6)を紹介する。
論文 参考訳(メタデータ) (2025-01-11T03:37:10Z) - TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters [102.1116808722299]
TokenFormerは、Transformerをスケールするためのスケーラブルなアーキテクチャです。
モデルパラメータをトークンとして扱うことで、トランスフォーマーのすべての線形射影を置き換える。
我々のモデルは、新しいキー値パラメータペアを漸進的に追加することで、124Mから1.4Bパラメータにスケールする。
論文 参考訳(メタデータ) (2024-10-30T16:19:00Z) - Symmetric Dot-Product Attention for Efficient Training of BERT Language Models [5.838117137253223]
本稿では,Transformer アーキテクチャによって導入された自己注意機構の代替互換性関数を提案する。
BERTライクなモデルの事前トレーニングに適用すると、この新しい対称アテンション機構はGLUEベンチマークで79.36点に達し、従来の実装では78.74点だった。
論文 参考訳(メタデータ) (2024-06-10T15:24:15Z) - Sparse Modular Activation for Efficient Sequence Modeling [94.11125833685583]
線形状態空間モデルと自己アテンション機構を組み合わせた最近のモデルでは、様々なシーケンスモデリングタスクにおいて顕著な結果が示されている。
現在のアプローチでは、アテンションモジュールを静的かつ均一に入力シーケンスのすべての要素に適用し、最適以下の品質効率のトレードオフをもたらす。
SMA(Sparse Modular Activation)は,ニューラルネットワークが配列要素のサブモジュールを異なる方法でスパースに活性化する機構である。
論文 参考訳(メタデータ) (2023-06-19T23:10:02Z) - RRWKV: Capturing Long-range Dependencies in RWKV [0.0]
本稿では、RWKVにレトロスペクション機能を組み込むことで、効率的に情報を吸収することで、Retrospected Receptance Weighted Key Valueアーキテクチャを考案する。
RWKVは、線形にテンソル積の注意機構を利用して、時間列モードをデプロイすることで並列化された計算を実現している。
論文 参考訳(メタデータ) (2023-06-08T13:17:06Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - FAENet: Frame Averaging Equivariant GNN for Materials Modeling [123.19473575281357]
データ変換による任意のモデルE(3)-同変や不変化を実現するために,フレームアラグリング(SFA)に依存したフレキシブルなフレームワークを導入する。
本手法の有効性を理論的および実験的に証明し, 材料モデリングにおける精度と計算スケーラビリティを実証する。
論文 参考訳(メタデータ) (2023-04-28T21:48:31Z) - Squeezeformer: An Efficient Transformer for Automatic Speech Recognition [99.349598600887]
Conformerは、そのハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルである。
Squeezeformerモデルを提案する。これは、同じトレーニングスキームの下で、最先端のASRモデルよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-06-02T06:06:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。