Fugu-MT 論文翻訳(概要): Eagle and Finch: RWKV with Matrix-Valued States and Dynamic Recurrence

論文の概要: Eagle and Finch: RWKV with Matrix-Valued States and Dynamic Recurrence

arxiv url: http://arxiv.org/abs/2404.05892v2
Date: Wed, 10 Apr 2024 19:34:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-12 17:46:48.983606
Title: Eagle and Finch: RWKV with Matrix-Valued States and Dynamic Recurrence
Title（参考訳）: Eagle and Finch: マトリックス値状態と動的再帰を備えたRWKV
Authors: Bo Peng, Daniel Goldstein, Quentin Anthony, Alon Albalak, Eric Alcaide, Stella Biderman, Eugene Cheah, Xingjian Du, Teddy Ferdinan, Haowen Hou, Przemysław Kazienko, Kranthi Kiran GV, Jan Kocoń, Bartłomiej Koptyra, Satyapriya Krishna, Ronald McClelland Jr., Niklas Muennighoff, Fares Obeid, Atsushi Saito, Guangyu Song, Haoqin Tu, Stanisław Woźniak, Ruichong Zhang, Bingchen Zhao, Qihang Zhao, Peng Zhou, Jian Zhu, Rui-Jie Zhu,
Abstract要約: 本稿では,RWKV(RWKV-4)アーキテクチャを改良したシーケンスモデルであるEagle(RWKV-5)とFinch(RWKV-6)を紹介する。アーキテクチャ設計の進歩には、マルチヘッド行列値状態と動的再帰機構が含まれる。我々は1.12兆のトークンを持つ新しい多言語コーパスと、強化された多言語性のためのgreedyマッチングに基づく高速トークン化器を導入する。
参考スコア（独自算出の注目度）: 36.99281930252628
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present Eagle (RWKV-5) and Finch (RWKV-6), sequence models improving upon the RWKV (RWKV-4) architecture. Our architectural design advancements include multi-headed matrix-valued states and a dynamic recurrence mechanism that improve expressivity while maintaining the inference efficiency characteristics of RNNs. We introduce a new multilingual corpus with 1.12 trillion tokens and a fast tokenizer based on greedy matching for enhanced multilinguality. We trained four Eagle models, ranging from 0.46 to 7.5 billion parameters, and two Finch models with 1.6 and 3.1 billion parameters and find that they achieve competitive performance across a wide variety of benchmarks. We release all our models on HuggingFace under the Apache 2.0 license. Models at: https://huggingface.co/RWKV Training code at: https://github.com/RWKV/RWKV-LM Inference code at: https://github.com/RWKV/ChatRWKV Time-parallel training code at: https://github.com/RWKV/RWKV-infctx-trainer
Abstract（参考訳）: 本稿では,RWKV(RWKV-4)アーキテクチャを改良したシーケンスモデルであるEagle(RWKV-5)とFinch(RWKV-6)を提案する。アーキテクチャ設計の進歩には、マルチヘッド行列値状態と、RNNの推論効率特性を維持しつつ、表現性を向上させるダイナミックリカレンス機構が含まれる。我々は1.12兆のトークンを持つ新しい多言語コーパスと、強化された多言語性のためのgreedyマッチングに基づく高速トークン化器を導入する。我々は、0.46から7.5億のパラメータを含む4つのイーグルモデルと1.6と310億のパラメータを持つ2つのフィンチモデルを訓練し、それらが様々なベンチマークで競争性能を達成することを発見した。私たちはすべてのモデルを Apache 2.0 ライセンスの下で HuggingFace でリリースしています。 Models at: https://github.com/RWKV/RWKV-LM Inference code at: https://github.com/RWKV/ChatRWKV Time-parallel training code at: https://github.com/RWKV/RWKV-infctx-trainer

関連論文リスト

Residual Context Diffusion Language Models [90.07635240595926]
Residual Context Diffusion (RCD) は、捨てられたトークン表現をコンテキスト残留に変換し、次のデノイングステップでそれらを注入するモジュールである。 RCDは、最小限の計算オーバーヘッドで、5-10ポイントの精度でフロンティアdLLMを一貫して改善する。
論文参考訳（メタデータ） (2026-01-30T13:16:32Z)
Sequential Diffusion Language Models [110.06562906987052]
拡散言語モデル(DLM)は理論効率が強いが、固定長の復号化とキー値キャッシュとの非互換性によって制限される。次点と次点の予測を統一するNext Sequence Prediction (NSP)を導入する。本稿では,事前学習した自己回帰言語モデル(ALM)を最小限のコストで再現可能な逐次拡散言語モデル(SDLM)を提案する。
論文参考訳（メタデータ） (2025-09-28T17:59:15Z)
RWKV-X: A Linear Complexity Hybrid Language Model [7.74296978323232]
我々は、短距離モデリングのためのRWKVの効率性と、長距離コンテキストをキャプチャするスパースアテンション機構を組み合わせた、新しいハイブリッドアーキテクチャであるtextbfRWKV-Xを紹介する。 RWKV-Xは,64Kパスキー検索ベンチマークにおいて,64K-tokenシーケンスで連続的に事前訓練された場合,ほぼ完全であることを示す。これらの結果から、RWKV-Xは汎用言語モデリングのスケーラブルで効率的なバックボーンであり、100万個のトークンを安定な速度とメモリ使用量で復号できることを示した。
論文参考訳（メタデータ） (2025-04-30T09:38:17Z)
Millions of States: Designing a Scalable MoE Architecture with RWKV-7 Meta-learner [0.747193191854175]
RWKV-7のような状態ベースのシーケンスモデルは、Transformerアーキテクチャの魅力的な代替手段を提供する。 RWKV-7の新たな拡張である textbfMeta-State を提案する。
論文参考訳（メタデータ） (2025-04-11T04:14:32Z)
RWKV-7 "Goose" with Expressive Dynamic State Evolution [16.339399279238464]
RWKV-7"Goose"は,メモリ使用量とトークン当たりの推論時間を一定とした新しいシーケンスモデリングアーキテクチャである。他のトップモデルよりも大幅に少ないトークンでトレーニングされているにもかかわらず、29億のパラメータ言語モデルは、多言語タスクで新しい3B SoTAを達成する。 RWKV-7は、訓練の並列化性を保ちながら、全ての正規言語に対して状態追跡と認識を行うことができることを示す。
論文参考訳（メタデータ） (2025-03-18T17:31:05Z)
ARWKV: Pretrain is not what we need, an RNN-Attention-Based Language Model Born from Transformer [0.6839746711757702]
純ネイティブRWKV-7によるQwen 2.5の蒸留モデルについて紹介する。我々は、RWKV-6アーキテクチャに基づくQRWK 32Bで作業する。実際、蒸留プロセスはQwenだけでなくいかなるLLMも利用でき、より少ないトークンでより大きなLLMからより小さなLLMへ知識を伝達することができる。
論文参考訳（メタデータ） (2025-01-26T15:56:56Z)
Rodimus*: Breaking the Accuracy-Efficiency Trade-Off with Efficient Attentions [26.025283259518936]
RodimusはTransformerベースの大規模言語モデル(LLM)のための新しいタイプのアテンションシステムである。 Rodimusは、線形アテンションベースで純粋にリカレントなフレームワーク内で、データ依存のテンプレート選択機構を採用している。実験の結果,1兆トークンでトレーニングしたRodimus$+$-1.6Bは,より多くのトークンでトレーニングしたモデルに対して,より優れたダウンストリーム性能を実現することがわかった。
論文参考訳（メタデータ） (2024-10-09T06:22:36Z)
NAMER: Non-Autoregressive Modeling for Handwritten Mathematical Expression Recognition [80.22784377150465]
手書き数学的表現認識(HMER)は、文書理解における多種多様な応用のために、パターン認識において大きな注目を集めている。本稿では,HMERのためのボトムアップ非自己回帰モデリング手法であるNAMERを初めて構築する。 NAMERは、VAT(Visual Aware Tokenizer)とPGD(Parallel Graph)を備える。
論文参考訳（メタデータ） (2024-07-16T04:52:39Z)
VisualRWKV: Exploring Recurrent Neural Networks for Visual Language Models [10.272476734387977]
線形RNNモデルのマルチモーダル学習タスクへの最初の応用であるVisualRWKVを紹介する。モデリング能力を高めるために,データ依存の再現とサンドイッチプロンプトを提案する。 VisualRWKVは、様々なベンチマークでLLaVA-1.5のようなTransformerベースのモデルと比較して、競争力がある。
論文参考訳（メタデータ） (2024-06-19T09:07:31Z)
PointRWKV: Efficient RWKV-Like Model for Hierarchical Point Cloud Learning [56.14518823931901]
NLP分野におけるRWKVモデルから導かれる線形複雑性のモデルであるPointRWKVを提案する。まず,改良型マルチヘッド行列値状態を用いて,PointRWKVブロック内のグローバル処理機能について検討する。局所的な幾何学的特徴を同時に抽出するために,グラフ安定化器を用いた固定半径近傍グラフにおいて,点雲を効率的に符号化する並列分岐を設計する。
論文参考訳（メタデータ） (2024-05-24T05:02:51Z)
MatFormer: Nested Transformer for Elastic Inference [94.1789252941718]
MatFormerは、様々なデプロイメント制約で弾力性を提供するように設計されたネストトランスフォーマーアーキテクチャである。 2.6BデコーダのみのMatFormer言語モデル(MatLM)は1.5Bから2.6Bまでの小さなモデルを抽出できることを示す。また,MatFormerベースのViT(MatViT)エンコーダから抽出した小さなエンコーダは,適応的な大規模検索のための距離空間構造を保持する。
論文参考訳（メタデータ） (2023-10-11T17:57:14Z)
RETVec: Resilient and Efficient Text Vectorizer [5.181952693002194]
RETVecは、256次元ベクトル空間に単語を埋め込むために、新しい文字エンコーディングとオプションの小さな埋め込みモデルを組み合わせる。 RETVec埋め込みモデルは、ペアワイドメトリック学習を用いて事前訓練され、タイプミスやキャラクターレベルの敵攻撃に対して堅牢である。
論文参考訳（メタデータ） (2023-02-18T02:06:52Z)
From English to More Languages: Parameter-Efficient Model Reprogramming for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文参考訳（メタデータ） (2023-01-19T02:37:56Z)
Squeezeformer: An Efficient Transformer for Automatic Speech Recognition [99.349598600887]
Conformerは、そのハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルである。 Squeezeformerモデルを提案する。これは、同じトレーニングスキームの下で、最先端のASRモデルよりも一貫して優れている。
論文参考訳（メタデータ） (2022-06-02T06:06:29Z)
UniFormer: Unifying Convolution and Self-attention for Visual Recognition [69.68907941116127]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、ここ数年で主要なフレームワークである。コンボリューションと自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合する新しいUnified TransFormer(UniFormer)を提案する。我々のUniFormerはImageNet-1K分類において86.3トップ1の精度を実現している。
論文参考訳（メタデータ） (2022-01-24T04:39:39Z)
COMBO: State-of-the-Art Morphosyntactic Analysis [0.0]
COMBOは、音声の正確なタグ付け、形態解析、補綴、および(強化された)依存性解析のための完全に神経的なNLPシステムである。隠れた層から抽出したベクトル表現を公開しながら、分類的形態合成特性を予測する。 40以上の言語で、トレーニング済みのモデルを自動的にダウンロードして、Pythonパッケージをインストールするのは簡単です。
論文参考訳（メタデータ） (2021-09-11T20:00:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。