論文の概要: RWKV-7 "Goose" with Expressive Dynamic State Evolution
- arxiv url: http://arxiv.org/abs/2503.14456v2
- Date: Sun, 30 Mar 2025 13:46:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 15:20:32.510267
- Title: RWKV-7 "Goose" with Expressive Dynamic State Evolution
- Title(参考訳): RWKV-7 表現的動的状態進化を伴う「グース」
- Authors: Bo Peng, Ruichong Zhang, Daniel Goldstein, Eric Alcaide, Xingjian Du, Haowen Hou, Jiaju Lin, Jiaxing Liu, Janna Lu, William Merrill, Guangyu Song, Kaifeng Tan, Saiteja Utpala, Nathan Wilce, Johan S. Wind, Tianyi Wu, Daniel Wuttke, Christian Zhou-Zheng,
- Abstract要約: RWKV-7"Goose"は,メモリ使用量とトークン当たりの推論時間を一定とした新しいシーケンスモデリングアーキテクチャである。
他のトップモデルよりも大幅に少ないトークンでトレーニングされているにもかかわらず、29億のパラメータ言語モデルは、多言語タスクで新しい3B SoTAを達成する。
RWKV-7は、訓練の並列化性を保ちながら、全ての正規言語に対して状態追跡と認識を行うことができることを示す。
- 参考スコア(独自算出の注目度): 16.339399279238464
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present RWKV-7 "Goose", a new sequence modeling architecture with constant memory usage and constant inference time per token. Despite being trained on dramatically fewer tokens than other top models, our 2.9 billion parameter language model achieves a new 3B SoTA on multilingual tasks and matches the current 3B SoTA on English language downstream performance. RWKV-7 introduces a newly generalized formulation of the delta rule with vector-valued gating and in-context learning rates, as well as a relaxed value replacement rule. We show that RWKV-7 can perform state tracking and recognize all regular languages, while retaining parallelizability of training. This exceeds the capabilities of Transformers under standard complexity conjectures, which are limited to $\mathsf{TC}^0$. To demonstrate RWKV-7's language modeling capability, we also present an extended open source 3.1 trillion token multilingual corpus, and train four RWKV-7 models ranging from 0.19 billion to 2.9 billion parameters on this dataset. To foster openness, reproduction, and adoption, we release our models and dataset component listing at https://huggingface.co/RWKV, and our training and inference code at https://github.com/RWKV/RWKV-LM all under the Apache 2.0 License.
- Abstract(参考訳): RWKV-7"Goose"は,メモリ使用量とトークン当たりの推論時間を一定とした新しいシーケンスモデリングアーキテクチャである。
我々の290億のパラメータ言語モデルは、他のトップモデルよりも劇的に少ないトークンで訓練されているにもかかわらず、多言語タスクで新しい3B SoTAを達成し、現在の3B SoTAと英語のダウンストリームのパフォーマンスで一致します。
RWKV-7は、ベクトル値ゲーティングと文脈内学習率によるデルタ則の一般化と、緩和された値置換規則を導入している。
RWKV-7は、訓練の並列化性を保ちながら、全ての正規言語に対して状態追跡と認識を行うことができることを示す。
これは標準的な複雑性予想の下での変換器の能力を超え、これは$\mathsf{TC}^0$に制限される。
RWKV-7の言語モデリング能力を実証するために、拡張されたオープンソースの3.1兆個のトークン多言語コーパスを提示し、このデータセット上で0.19億から2.9億のパラメーターを含む4つのRWKV-7モデルを訓練する。
オープン性、再現性、採用を促進するため、私たちはhttps://huggingface.co/RWKVでモデルとデータセットコンポーネントのリストを公開し、トレーニングコードと推論コードはhttps://github.com/RWKV/RWKV-LMでApache 2.0ライセンスの下で公開しています。
関連論文リスト
- RWKV-X: A Linear Complexity Hybrid Language Model [7.74296978323232]
我々は、短距離モデリングのためのRWKVの効率性と、長距離コンテキストをキャプチャするスパースアテンション機構を組み合わせた、新しいハイブリッドアーキテクチャであるtextbfRWKV-Xを紹介する。
RWKV-Xは,64Kパスキー検索ベンチマークにおいて,64K-tokenシーケンスで連続的に事前訓練された場合,ほぼ完全であることを示す。
これらの結果から、RWKV-Xは汎用言語モデリングのスケーラブルで効率的なバックボーンであり、100万個のトークンを安定な速度とメモリ使用量で復号できることを示した。
論文 参考訳(メタデータ) (2025-04-30T09:38:17Z) - Millions of States: Designing a Scalable MoE Architecture with RWKV-7 Meta-learner [0.747193191854175]
RWKV-7のような状態ベースのシーケンスモデルは、Transformerアーキテクチャの魅力的な代替手段を提供する。
RWKV-7の新たな拡張である textbfMeta-State を提案する。
論文 参考訳(メタデータ) (2025-04-11T04:14:32Z) - RWKVTTS: Yet another TTS based on RWKV-7 [0.8397702677752039]
TTSアプリケーションに適した最先端のRNNアーキテクチャであるRWKV-7 citepeng2025rwkvを紹介する。
従来のトランスモデルとは異なり、RWKV-7はリカレントニューラルネットワークの強みを活用して計算効率とスケーラビリティを向上させる。
論文 参考訳(メタデータ) (2025-04-04T09:17:20Z) - ARWKV: Pretrain is not what we need, an RNN-Attention-Based Language Model Born from Transformer [0.6839746711757702]
純ネイティブRWKV-7によるQwen 2.5の蒸留モデルについて紹介する。
我々は、RWKV-6アーキテクチャに基づくQRWK 32Bで作業する。
実際、蒸留プロセスはQwenだけでなくいかなるLLMも利用でき、より少ないトークンでより大きなLLMからより小さなLLMへ知識を伝達することができる。
論文 参考訳(メタデータ) (2025-01-26T15:56:56Z) - PointRWKV: Efficient RWKV-Like Model for Hierarchical Point Cloud Learning [56.14518823931901]
NLP分野におけるRWKVモデルから導かれる線形複雑性のモデルであるPointRWKVを提案する。
まず,改良型マルチヘッド行列値状態を用いて,PointRWKVブロック内のグローバル処理機能について検討する。
局所的な幾何学的特徴を同時に抽出するために,グラフ安定化器を用いた固定半径近傍グラフにおいて,点雲を効率的に符号化する並列分岐を設計する。
論文 参考訳(メタデータ) (2024-05-24T05:02:51Z) - Eagle and Finch: RWKV with Matrix-Valued States and Dynamic Recurrence [36.97507697713224]
本稿では,RWKV(RWKV-4)アーキテクチャを改良したシーケンスモデルであるEagle(RWKV-5)とFinch(RWKV-6)を紹介する。
アーキテクチャ設計の進歩には、マルチヘッド行列値状態と動的再帰機構が含まれる。
我々は1.12兆のトークンを持つ新しい多言語コーパスと、強化された多言語性のためのgreedyマッチングに基づく高速トークン化器を導入する。
論文 参考訳(メタデータ) (2024-04-08T22:20:59Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Zemi: Learning Zero-Shot Semi-Parametric Language Models from Multiple
Tasks [77.90900650816046]
ゼロショットセミパラメトリック言語モデルである$textZemi$を紹介します。
私たちは、新しいセミパラメトリックマルチタスクによるトレーニングパラダイムで、textZemi$をトレーニングします。
具体的には、大規模タスクに依存しない未ラベルコーパスからの検索により、マルチタスクトレーニングとゼロショット評価を強化する。
論文 参考訳(メタデータ) (2022-10-01T04:08:50Z) - Improving language models by retrieving from trillions of tokens [50.42630445476544]
大規模コーパスから取得した文書チャンクを条件付けすることで,自動回帰言語モデルを強化する。
2兆ドルのトークンデータベースで、Retrieval-Enhanced Transformer (RETRO)は、PileのGPT-3とJurassic-1に匹敵するパフォーマンスを得る。
論文 参考訳(メタデータ) (2021-12-08T17:32:34Z) - DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with
Gradient-Disentangled Embedding Sharing [117.41016786835452]
本稿では,DeBERTaモデルの改良を目的とした,事前学習型言語モデルDeBERTaV3を提案する。
ELECTRAでのバニラ埋め込み共有は、トレーニング効率とモデルパフォーマンスを損なう。
そこで本研究では、タグ・オブ・ウォーのダイナミクスを回避するために、新しい勾配距離の埋め込み方式を提案する。
論文 参考訳(メタデータ) (2021-11-18T06:48:00Z) - Towards Making the Most of Multilingual Pretraining for Zero-Shot Neural
Machine Translation [74.158365847236]
SixT++は、100のソース言語をサポートする強力な多言語NMTモデルであるが、たった6つのソース言語からの並列データセットで一度トレーニングされている。
CRISSとm2m-100は、それぞれ7.2と5.0BLEUの2つの強い多言語NMTシステムより大幅に優れていた。
論文 参考訳(メタデータ) (2021-10-16T10:59:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。