論文の概要: ARWKV: Pretrain is not what we need, an RNN-Attention-Based Language Model Born from Transformer
- arxiv url: http://arxiv.org/abs/2501.15570v1
- Date: Sun, 26 Jan 2025 15:56:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:57:17.534529
- Title: ARWKV: Pretrain is not what we need, an RNN-Attention-Based Language Model Born from Transformer
- Title(参考訳): ARWKV: Pretrainは必要なものではありません。Transformerから生まれたRNN-Attention-based Language Model
- Authors: Lin Yueyu, Li Zhiyuan, Peter Yue, Liu Xiao,
- Abstract要約: 純ネイティブRWKV-7によるQwen 2.5の蒸留モデルについて紹介する。
我々は、RWKV-6アーキテクチャに基づくQRWK 32Bで作業する。
実際、蒸留プロセスはQwenだけでなくいかなるLLMも利用でき、より少ないトークンでより大きなLLMからより小さなLLMへ知識を伝達することができる。
- 参考スコア(独自算出の注目度): 0.6839746711757702
- License:
- Abstract: As is known, hybrid quadratic and subquadratic attention models in multi-head architectures have surpassed both Transformer and Linear RNN models , with these works primarily focusing on reducing KV complexity and improving efficiency. For further research on expressiveness, we introduce our series of models distilled from Qwen 2.5, based on pure native RWKV-7 attention, which aims to make RNN more expressive and demonstrates state tracking ability beyond transformers. We work with QRWK 32B based on RWKV-6 architecture, another approach that reduces the entire knowledge processing time to just 8 hours using 16 AMD MI300X GPUs while maintaining Qwen 2.5's performance. In fact, the distillation process can utilize any LLM, not just Qwen, and enables knowledge transfer from larger LLMs to smaller ones with more fewer tokens. We will explain the detailed process and share our insights on building more powerful foundation models. Please note that this is an ongoing work that will be updated continuously. The model checkpoints and source code are available at \href{https://github.com/yynil/RWKVInside}{https://github.com/yynil/RWKVInside}, \href{https://huggingface.co/RWKV-Red-Team/ARWKV-7B-Preview-0.1}{https://huggingface.co/RWKV-Red-Team/ARWKV-7B-Preview-0.1}.
- Abstract(参考訳): 既知のように、マルチヘッドアーキテクチャにおけるハイブリッド二次的および二次的アテンションモデルは、TransformerとLinear RNNモデルの両方を超えており、これらは主にKV複雑性の低減と効率の向上に重点を置いている。
そこで本研究では,Qwen 2.5から抽出したRWKV-7を生かし,RNNの表現性を向上し,トランスフォーマーを越える状態追跡能力を実証することを目的とした,純ネイティブなRWKV-7注目モデルについて紹介する。
我々はRWKV-6アーキテクチャに基づくQRWK 32Bで作業を行い、Qwen 2.5の性能を維持しながら16のAMD MI300X GPUを使用して知識処理時間をたった8時間に短縮する。
実際、蒸留プロセスはQwenだけでなくいかなるLLMも利用でき、より少ないトークンでより大きなLLMからより小さなLLMへ知識を伝達することができる。
詳細なプロセスを説明し、より強力な基盤モデルの構築に関する洞察を共有します。
これは継続的に更新される進行中の作業であることに注意してください。
モデルチェックポイントとソースコードは \href{https://github.com/yynil/RWKVInside}{https://github.com/yynil/RWKVInside}, \href{https://huggingface.co/RWKV-Red-Team/ARWKV-7B-Preview-0.1}{https://huggingface.co/RWKV-Red-Team/ARWKV-7B-Preview-0.1} で入手できる。
関連論文リスト
- KV Prediction for Improved Time to First Token [34.73985305945774]
トランスフォーマーベースの言語モデルによる推論は、プロンプト処理ステップから始まる。
KV予測と呼ばれる新しい手法を導入し、最初の出力に費やした時間を短縮する。
TTFT FLOPs予算の範囲で, 比較的精度が向上したことを示す。
論文 参考訳(メタデータ) (2024-10-10T21:55:11Z) - VisualRWKV: Exploring Recurrent Neural Networks for Visual Language Models [10.272476734387977]
線形RNNモデルのマルチモーダル学習タスクへの最初の応用であるVisualRWKVを紹介する。
モデリング能力を高めるために,データ依存の再現とサンドイッチプロンプトを提案する。
VisualRWKVは、様々なベンチマークでLLaVA-1.5のようなTransformerベースのモデルと比較して、競争力がある。
論文 参考訳(メタデータ) (2024-06-19T09:07:31Z) - PointRWKV: Efficient RWKV-Like Model for Hierarchical Point Cloud Learning [56.14518823931901]
NLP分野におけるRWKVモデルから導かれる線形複雑性のモデルであるPointRWKVを提案する。
まず,改良型マルチヘッド行列値状態を用いて,PointRWKVブロック内のグローバル処理機能について検討する。
局所的な幾何学的特徴を同時に抽出するために,グラフ安定化器を用いた固定半径近傍グラフにおいて,点雲を効率的に符号化する並列分岐を設計する。
論文 参考訳(メタデータ) (2024-05-24T05:02:51Z) - Attention as an RNN [66.5420926480473]
我々は,そのテキストマンディ・ツー・ワンのRNN出力を効率的に計算できる特別なリカレントニューラルネットワーク(RNN)として注目されることを示す。
本稿では,並列プレフィックススキャンアルゴリズムを用いて,注目のテキストマンディ・ツー・マニーRNN出力を効率よく計算する手法を提案する。
Aarensは、一般的な4つのシーケンシャルな問題設定に散らばる38ドルのデータセットで、Transformersに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-22T19:45:01Z) - Eagle and Finch: RWKV with Matrix-Valued States and Dynamic Recurrence [36.97507697713224]
本稿では,RWKV(RWKV-4)アーキテクチャを改良したシーケンスモデルであるEagle(RWKV-5)とFinch(RWKV-6)を紹介する。
アーキテクチャ設計の進歩には、マルチヘッド行列値状態と動的再帰機構が含まれる。
我々は1.12兆のトークンを持つ新しい多言語コーパスと、強化された多言語性のためのgreedyマッチングに基づく高速トークン化器を導入する。
論文 参考訳(メタデータ) (2024-04-08T22:20:59Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - RWKV-TS: Beyond Traditional Recurrent Neural Network for Time Series
Tasks [42.27646976600047]
伝統的なリカレントニューラルネットワーク(RNN)アーキテクチャは、伝統的に時系列タスクにおいて顕著な地位を占めてきた。
近年の時系列予測の進歩は、RNNからTransformersやCNNといったタスクに移行している。
我々は,RWKV-TSという,時系列タスクのための効率的なRNNモデルの設計を行った。
論文 参考訳(メタデータ) (2024-01-17T09:56:10Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - An Empirical Study of Training End-to-End Vision-and-Language
Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文 参考訳(メタデータ) (2021-11-03T17:55:36Z) - Investigating Transfer Learning Capabilities of Vision Transformers and
CNNs by Fine-Tuning a Single Trainable Block [0.0]
トランスフォーマーベースのアーキテクチャは、CNNアーキテクチャによる最先端のセットを精度で上回っているが、スクラッチからトレーニングするには計算コストが非常に高い。
転送学習能力について検討し、CNNと比較し、小型データを用いた実世界の問題に適用した場合に、どのアーキテクチャが優れているかを理解する。
変換器をベースとしたアーキテクチャは,CNNよりも高い精度を実現するだけでなく,パラメータの約4倍の精度で実現している。
論文 参考訳(メタデータ) (2021-10-11T13:43:03Z) - Video Super-Resolution Transformer [85.11270760456826]
ビデオ超解像(VSR)は、高解像度映像を対応する低解像度バージョンから復元することを目的としており、時空間シーケンス予測問題である。
近年,シークエンス・ツー・シーケンス・モデリングの並列計算能力により,Transformerが人気を集めている。
本稿では,空間的・時間的畳み込み型自己認識層を理論的に理解し,局所性情報を活用する。
論文 参考訳(メタデータ) (2021-06-12T20:00:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。