論文の概要: RRWKV: Capturing Long-range Dependencies in RWKV
- arxiv url: http://arxiv.org/abs/2306.05176v1
- Date: Thu, 8 Jun 2023 13:17:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 14:27:12.109686
- Title: RRWKV: Capturing Long-range Dependencies in RWKV
- Title(参考訳): RRWKV:RWKVの長距離依存性をキャプチャする
- Authors: Leilei Wang
- Abstract要約: 本稿では、RWKVにレトロスペクション機能を組み込むことで、効率的に情報を吸収することで、Retrospected Receptance Weighted Key Valueアーキテクチャを考案する。
RWKVは、線形にテンソル積の注意機構を利用して、時間列モードをデプロイすることで並列化された計算を実現している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Owing to the impressive dot-product attention, the Transformers have been the
dominant architectures in various natural language processing (NLP) tasks.
Recently, the Receptance Weighted Key Value (RWKV) architecture follows a
non-transformer architecture to eliminate the drawbacks of dot-product
attention, where memory and computational complexity exhibits quadratic scaling
with sequence length. Although RWKV has exploited a linearly tensor-product
attention mechanism and achieved parallelized computations by deploying the
time-sequential mode, it fails to capture long-range dependencies because of
its limitation on looking back at previous information, compared with full
information obtained by direct interactions in the standard transformer.
Therefore, the paper devises the Retrospected Receptance Weighted Key Value
(RRWKV) architecture via incorporating the retrospecting ability into the RWKV
to effectively absorb information, which maintains memory and computational
efficiency as well.
- Abstract(参考訳): ドットプロダクティビティの注目により、トランスフォーマーは様々な自然言語処理(NLP)タスクにおいて支配的なアーキテクチャとなっている。
近年、Receptance Weighted Key Value (RWKV)アーキテクチャは、メモリと計算の複雑さがシーケンス長の2次スケーリングを示す点積の欠点を取り除くために、非変換アーキテクチャに従っている。
RWKVは、線形にテンソル積の注意機構を利用し、時間列モードを配置することで並列化された計算を実現しているが、標準トランスフォーマーのダイレクトインタラクションによって得られる全情報と比較して、以前の情報を振り返ることに制限があるため、長距離依存を捉えることができない。
そこで本稿では,RWKVにレトロスペクション機能を組み込んで,メモリや計算効率の維持を図ることで,Retrospected Receptance Weighted Key Value(RRWKV)アーキテクチャを考案する。
関連論文リスト
- An All-MLP Sequence Modeling Architecture That Excels at Copying [6.824179106436217]
コピータスクにおいてトランスフォーマーにマッチする全MLPシーケンスモデリングアーキテクチャを提案する。
アブレーション研究では,Transformerレベルのコピーには,指数的アクティベーションとプレアクティベーション正規化が不可欠であることが判明した。
論文 参考訳(メタデータ) (2024-06-23T17:19:26Z) - Rough Transformers: Lightweight Continuous-Time Sequence Modelling with Path Signatures [46.58170057001437]
本稿では,入力シーケンスの連続時間表現で動作するトランスフォーマーモデルのバリエーションであるRough Transformerを紹介する。
様々な時系列関連タスクにおいて、Rough Transformersはベニラアテンションよりも常に優れています。
論文 参考訳(メタデータ) (2024-05-31T14:00:44Z) - Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like
Architectures [99.20299078655376]
本稿では、NLPフィールドで使用されるRWKVモデルから適応したVision-RWKVを紹介する。
我々のモデルは、スパース入力を効率的に処理し、ロバストなグローバル処理能力を実証するために設計されている。
評価の結果,VRWKVは画像分類におけるViTの性能を超え,高速化とメモリ使用量の削減を図っている。
論文 参考訳(メタデータ) (2024-03-04T18:46:20Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - FormerTime: Hierarchical Multi-Scale Representations for Multivariate
Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。
1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文 参考訳(メタデータ) (2023-02-20T07:46:14Z) - Towards Long-Term Time-Series Forecasting: Feature, Pattern, and
Distribution [57.71199089609161]
長期的時系列予測(LTTF)は、風力発電計画など、多くのアプリケーションで需要が高まっている。
トランスフォーマーモデルは、高い計算自己認識機構のため、高い予測能力を提供するために採用されている。
LTTFの既存の手法を3つの面で区別する,Conformer という,効率的なTransformer ベースモデルを提案する。
論文 参考訳(メタデータ) (2023-01-05T13:59:29Z) - Resource-Efficient Separation Transformer [14.666016177212837]
本稿では,トランスフォーマーを用いた音声分離手法について,計算コストの削減による検討を行う。
私たちの主な貢献は、自己注意に基づくアーキテクチャであるResource-Efficient separation Transformer (RE-SepFormer)の開発です。
RE-SepFormerは、一般的なWSJ0-2MixとWHAM!データセットにおいて、因果設定と非因果設定の両方で競合するパフォーマンスに達する。
論文 参考訳(メタデータ) (2022-06-19T23:37:24Z) - ReconFormer: Accelerated MRI Reconstruction Using Recurrent Transformer [60.27951773998535]
本稿では,MRI再構成のためのリカレントトランスモデルである textbfReconFormer を提案する。
高度にアンダーサンプリングされたk空間データから高純度磁気共鳴像を反復的に再構成することができる。
パラメータ効率が向上し,最先端手法よりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2022-01-23T21:58:19Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。