論文の概要: RWKV-7 "Goose" with Expressive Dynamic State Evolution
- arxiv url: http://arxiv.org/abs/2503.14456v1
- Date: Tue, 18 Mar 2025 17:31:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:18:22.068632
- Title: RWKV-7 "Goose" with Expressive Dynamic State Evolution
- Title(参考訳): RWKV-7 表現的動的状態進化を伴う「グース」
- Authors: Bo Peng, Ruichong Zhang, Daniel Goldstein, Eric Alcaide, Haowen Hou, Janna Lu, William Merrill, Guangyu Song, Kaifeng Tan, Saiteja Utpala, Nathan Wilce, Johan S. Wind, Tianyi Wu, Daniel Wuttke, Christian Zhou-Zheng,
- Abstract要約: 本稿では,事前学習型言語モデルとともに,新しいシーケンスモデリングアーキテクチャであるRWKV-7"Goose"を提案する。
RWKV-7は、訓練の並列化性を保ちながら、全ての正規言語に対して状態追跡と認識を行うことができることを示す。
また、オープンソースの3.1兆のトークン多言語コーパスを拡張し、4つのRWKV-7モデルをトレーニングします。
- 参考スコア(独自算出の注目度): 10.626093742221421
- License:
- Abstract: We present RWKV-7 "Goose", a new sequence modeling architecture, along with pre-trained language models that establish a new state-of-the-art in downstream performance at the 3 billion parameter scale on multilingual tasks, and match current SoTA English language performance despite being trained on dramatically fewer tokens than other top 3B models. Nevertheless, RWKV-7 models require only constant memory usage and constant inference time per token. RWKV-7 introduces a newly generalized formulation of the delta rule with vector-valued gating and in-context learning rates, as well as a relaxed value replacement rule. We show that RWKV-7 can perform state tracking and recognize all regular languages, while retaining parallelizability of training. This exceeds the capabilities of Transformers under standard complexity conjectures, which are limited to $\mathsf{TC}^0$. To demonstrate RWKV-7's language modeling capability, we also present an extended open source 3.1 trillion token multilingual corpus, and train four RWKV-7 models ranging from 0.19 billion to 2.9 billion parameters on this dataset. To foster openness, reproduction, and adoption, we release our models and dataset component listing at https://huggingface.co/RWKV, and our training and inference code at https://github.com/RWKV/RWKV-LM all under the Apache 2.0 License.
- Abstract(参考訳): 我々はRWKV-7"Goose"という新しいシーケンスモデリングアーキテクチャと、マルチリンガルタスクにおける30億のパラメータスケールで、ダウンストリームのパフォーマンスを新たに確立する事前訓練された言語モデルを紹介し、他の上位3Bモデルに比べて、劇的に少ないトークンで訓練されているにもかかわらず、現在のSoTAの言語性能にマッチする。
それでもRWKV-7モデルは、トークン当たりのメモリ使用量と推論時間のみを必要とする。
RWKV-7は、ベクトル値ゲーティングと文脈内学習率によるデルタ則の一般化と、緩和された値置換規則を導入している。
RWKV-7は、訓練の並列化性を保ちながら、全ての正規言語に対して状態追跡と認識を行うことができることを示す。
これは標準的な複雑性予想の下での変換器の能力を超え、これは$\mathsf{TC}^0$に制限される。
RWKV-7の言語モデリング能力を実証するために、拡張されたオープンソースの3.1兆個のトークン多言語コーパスを提示し、このデータセット上で0.19億から2.9億のパラメーターを含む4つのRWKV-7モデルを訓練する。
オープン性、再現性、採用を促進するため、私たちはhttps://huggingface.co/RWKVでモデルとデータセットコンポーネントのリストを公開し、トレーニングコードと推論コードはhttps://github.com/RWKV/RWKV-LMでApache 2.0ライセンスの下で公開しています。
関連論文リスト
- ARWKV: Pretrain is not what we need, an RNN-Attention-Based Language Model Born from Transformer [0.6839746711757702]
純ネイティブRWKV-7によるQwen 2.5の蒸留モデルについて紹介する。
我々は、RWKV-6アーキテクチャに基づくQRWK 32Bで作業する。
実際、蒸留プロセスはQwenだけでなくいかなるLLMも利用でき、より少ないトークンでより大きなLLMからより小さなLLMへ知識を伝達することができる。
論文 参考訳(メタデータ) (2025-01-26T15:56:56Z) - VisualRWKV: Exploring Recurrent Neural Networks for Visual Language Models [10.272476734387977]
線形RNNモデルのマルチモーダル学習タスクへの最初の応用であるVisualRWKVを紹介する。
モデリング能力を高めるために,データ依存の再現とサンドイッチプロンプトを提案する。
VisualRWKVは、様々なベンチマークでLLaVA-1.5のようなTransformerベースのモデルと比較して、競争力がある。
論文 参考訳(メタデータ) (2024-06-19T09:07:31Z) - Benchmarking the Performance of Pre-trained LLMs across Urdu NLP Tasks [0.9786690381850356]
本研究では、22のデータセットと13.8時間の発話をゼロショット環境で使用し、17のタスクにまたがる7つの顕著なLarge Language Model (LLM)を詳細に検討し、その性能を最先端(SOTA)モデルと比較した。
この結果から,Llama 3.1-8Bのようなより少ないパラメータを持つモデルでは,GPT-3.5のような言語多様性の低いモデルよりも,よりリッチな言語特化データの方が優れていることが示唆された。
論文 参考訳(メタデータ) (2024-05-24T11:30:37Z) - PointRWKV: Efficient RWKV-Like Model for Hierarchical Point Cloud Learning [56.14518823931901]
NLP分野におけるRWKVモデルから導かれる線形複雑性のモデルであるPointRWKVを提案する。
まず,改良型マルチヘッド行列値状態を用いて,PointRWKVブロック内のグローバル処理機能について検討する。
局所的な幾何学的特徴を同時に抽出するために,グラフ安定化器を用いた固定半径近傍グラフにおいて,点雲を効率的に符号化する並列分岐を設計する。
論文 参考訳(メタデータ) (2024-05-24T05:02:51Z) - Eagle and Finch: RWKV with Matrix-Valued States and Dynamic Recurrence [36.97507697713224]
本稿では,RWKV(RWKV-4)アーキテクチャを改良したシーケンスモデルであるEagle(RWKV-5)とFinch(RWKV-6)を紹介する。
アーキテクチャ設計の進歩には、マルチヘッド行列値状態と動的再帰機構が含まれる。
我々は1.12兆のトークンを持つ新しい多言語コーパスと、強化された多言語性のためのgreedyマッチングに基づく高速トークン化器を導入する。
論文 参考訳(メタデータ) (2024-04-08T22:20:59Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Zemi: Learning Zero-Shot Semi-Parametric Language Models from Multiple
Tasks [77.90900650816046]
ゼロショットセミパラメトリック言語モデルである$textZemi$を紹介します。
私たちは、新しいセミパラメトリックマルチタスクによるトレーニングパラダイムで、textZemi$をトレーニングします。
具体的には、大規模タスクに依存しない未ラベルコーパスからの検索により、マルチタスクトレーニングとゼロショット評価を強化する。
論文 参考訳(メタデータ) (2022-10-01T04:08:50Z) - DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with
Gradient-Disentangled Embedding Sharing [117.41016786835452]
本稿では,DeBERTaモデルの改良を目的とした,事前学習型言語モデルDeBERTaV3を提案する。
ELECTRAでのバニラ埋め込み共有は、トレーニング効率とモデルパフォーマンスを損なう。
そこで本研究では、タグ・オブ・ウォーのダイナミクスを回避するために、新しい勾配距離の埋め込み方式を提案する。
論文 参考訳(メタデータ) (2021-11-18T06:48:00Z) - Towards Making the Most of Multilingual Pretraining for Zero-Shot Neural
Machine Translation [74.158365847236]
SixT++は、100のソース言語をサポートする強力な多言語NMTモデルであるが、たった6つのソース言語からの並列データセットで一度トレーニングされている。
CRISSとm2m-100は、それぞれ7.2と5.0BLEUの2つの強い多言語NMTシステムより大幅に優れていた。
論文 参考訳(メタデータ) (2021-10-16T10:59:39Z) - Sentence Bottleneck Autoencoders from Transformer Language Models [53.350633961266375]
我々は、事前訓練されたフリーズトランスフォーマー言語モデルから文レベルのオートエンコーダを構築する。
我々は、文ボトルネックと1層修飾トランスフォーマーデコーダのみを訓練しながら、マスク付き言語モデリングの目的を生成的・認知的言語として適応する。
本研究では,テキスト類似性タスク,スタイル転送,単一文分類タスクにおける事前学習されたトランスフォーマーからの表現をGLUEベンチマークで抽出する手法よりも,大規模な事前学習モデルよりも少ないパラメータを用いて,より高品質な文表現を実現することを示す。
論文 参考訳(メタデータ) (2021-08-31T19:39:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。