論文の概要: RWKV-X: A Linear Complexity Hybrid Language Model
- arxiv url: http://arxiv.org/abs/2504.21463v1
- Date: Wed, 30 Apr 2025 09:38:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 19:30:04.922452
- Title: RWKV-X: A Linear Complexity Hybrid Language Model
- Title(参考訳): RWKV-X:線形複雑度ハイブリッド言語モデル
- Authors: Haowen Hou, Zhiyi Huang, Kaifeng Tan, Rongchang Lu, Fei Richard Yu,
- Abstract要約: 我々は、短距離モデリングのためのRWKVの効率性と、長距離コンテキストをキャプチャするスパースアテンション機構を組み合わせた、新しいハイブリッドアーキテクチャであるtextbfRWKV-Xを紹介する。
RWKV-Xは,64Kパスキー検索ベンチマークにおいて,64K-tokenシーケンスで連続的に事前訓練された場合,ほぼ完全であることを示す。
これらの結果から、RWKV-Xは汎用言語モデリングのスケーラブルで効率的なバックボーンであり、100万個のトークンを安定な速度とメモリ使用量で復号できることを示した。
- 参考スコア(独自算出の注目度): 7.74296978323232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce \textbf{RWKV-X}, a novel hybrid architecture that combines the efficiency of RWKV for short-range modeling with a sparse attention mechanism designed to capture long-range context. Unlike previous hybrid approaches that rely on full attention layers and retain quadratic complexity, RWKV-X achieves linear-time complexity in training and constant-time complexity in inference decoding. We demonstrate that RWKV-X, when continually pretrained on 64K-token sequences, achieves near-perfect accuracy on the 64K passkey retrieval benchmark. It consistently outperforms prior RWKV-7 models on long-context benchmarks, while maintaining strong performance on short-context tasks. These results highlight RWKV-X as a scalable and efficient backbone for general-purpose language modeling, capable of decoding sequences up to 1 million tokens with stable speed and memory usage. To facilitate further research and analysis, we have made the checkpoints and the associated code publicly accessible at: https://github.com/howard-hou/RWKV-X.
- Abstract(参考訳): 本稿では、短距離モデリングにおけるRWKVの効率性と、長距離コンテキストをキャプチャするスパースアテンション機構を組み合わせた、新しいハイブリッドアーキテクチャである \textbf{RWKV-X} を紹介する。
注意層に頼って二次的複雑性を維持する従来のハイブリッドアプローチとは異なり、RWKV-Xはトレーニングにおける線形時間複雑性と推論復号における定数時間複雑性を実現する。
RWKV-Xは,64Kパスキー検索ベンチマークにおいて,64K-tokenシーケンスで連続的に事前訓練された場合,ほぼ完全であることを示す。
長いコンテキストのベンチマークではRWKV-7モデルよりも一貫して優れており、短コンテキストのタスクでは高いパフォーマンスを維持している。
これらの結果から、RWKV-Xは汎用言語モデリングのスケーラブルで効率的なバックボーンであり、100万個のトークンを安定な速度とメモリ使用量で復号できることを示した。
さらなる研究と分析を容易にするため、チェックポイントと関連するコードをhttps://github.com/howard-hou/RWKV-Xで公開しました。
関連論文リスト
- Cross-attention for State-based model RWKV-7 [0.747193191854175]
CrossWKVは、状態ベースのRWKV-7モデルのための新しいクロスアテンションメカニズムである。
CrossWKVはテキストと画像のモダリティを1つのパスに統合する。
モデルの拡張された表現性は、メモリ使用量と線形スケーリングとを合わせて、高度なクロスモーダルタスクのための強力なソリューションとして位置づけられる。
論文 参考訳(メタデータ) (2025-04-19T10:47:51Z) - Millions of States: Designing a Scalable MoE Architecture with RWKV-7 Meta-learner [0.747193191854175]
RWKV-7のような状態ベースのシーケンスモデルは、Transformerアーキテクチャの魅力的な代替手段を提供する。
RWKV-7の新たな拡張である textbfMeta-State を提案する。
論文 参考訳(メタデータ) (2025-04-11T04:14:32Z) - Enhancing RWKV-based Language Models for Long-Sequence Text Generation [0.0]
本稿では、長文言語モデリングを改善するための適応時間ゲーティング機構を備えた拡張RWKVアーキテクチャを提案する。
本研究では,(1)グローバルコヒーレンスを保ちながら局所的な統語パターンを捉える位置認識畳み込みシフト演算子,(2)知識間の情報の流れを動的に制御する神経伝達情報ルーティング機構を提案する。
論文 参考訳(メタデータ) (2025-02-21T14:18:18Z) - Activation-aware Probe-Query: Effective Key-Value Retrieval for Long-Context LLMs Inference [56.71209737306054]
我々は,プローブ-textbfQuery を動的に決定し,関連する textbfKV ペアを推論するために利用する,トレーニングフリーの textbfActivation-aware アプローチである textbfActQKV を提案する。
Long-Bench と $infty$ Benchmarks の実験では、競合する推論品質とリソース効率を備えた最先端のパフォーマンスが実証されている。
論文 参考訳(メタデータ) (2025-02-19T08:50:44Z) - Tensor Product Attention Is All You Need [54.40495407154611]
プロダクトアテンション(TPA)は、テンソル分解を使用してクエリ、キー、値をコンパクトに表現する新しいアテンションメカニズムである。
TPAは、メモリ効率とともに改善されたモデル品質を実現する。
本稿では,シーケンスモデリングのための新しいモデルアーキテクチャであるProducT ATTion Transformer (T6)を紹介する。
論文 参考訳(メタデータ) (2025-01-11T03:37:10Z) - RefreshKV: Updating Small KV Cache During Long-form Generation [54.00118604124301]
生成中の入力トークンのサブセットに対して、完全なコンテキストアテンションとアテンションを柔軟に交互に交互に切り替える新しい推論手法RefreshKVを提案する。
本手法をオフザシェルフ LLM に適用することにより,様々な長文生成タスクの性能を向上しつつ,エビクションベースの手法に匹敵する高速化を実現する。
論文 参考訳(メタデータ) (2024-11-08T18:57:07Z) - KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z) - LoCoCo: Dropping In Convolutions for Long Context Compression [77.26610232994508]
本稿では,Long Context Compression(LoCoCo)のための新しいアプローチであるDropping In Convolutionsを提案する。
LoCoCoは、固定サイズキーバリュー(KV)キャッシュのみを使用し、推論と微調整の両方のステージで効率を向上させることができる。
論文 参考訳(メタデータ) (2024-06-08T01:35:11Z) - Eagle and Finch: RWKV with Matrix-Valued States and Dynamic Recurrence [36.97507697713224]
本稿では,RWKV(RWKV-4)アーキテクチャを改良したシーケンスモデルであるEagle(RWKV-5)とFinch(RWKV-6)を紹介する。
アーキテクチャ設計の進歩には、マルチヘッド行列値状態と動的再帰機構が含まれる。
我々は1.12兆のトークンを持つ新しい多言語コーパスと、強化された多言語性のためのgreedyマッチングに基づく高速トークン化器を導入する。
論文 参考訳(メタデータ) (2024-04-08T22:20:59Z) - LOCOST: State-Space Models for Long Document Abstractive Summarization [76.31514220737272]
長いコンテキスト入力を持つ条件付きテキスト生成のための状態空間モデルに基づくエンコーダデコーダアーキテクチャであるLOCOSTを提案する。
計算複雑性が$O(L log L)$の場合、このアーキテクチャは疎注意パターンに基づく最先端モデルよりもはるかに長いシーケンスを処理できる。
論文 参考訳(メタデータ) (2024-01-31T15:33:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。