Fugu-MT 論文翻訳(概要): RRWKV: Capturing Long-range Dependencies in RWKV

論文の概要: RRWKV: Capturing Long-range Dependencies in RWKV

arxiv url: http://arxiv.org/abs/2306.05176v1
Date: Thu, 8 Jun 2023 13:17:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-09 14:27:12.109686
Title: RRWKV: Capturing Long-range Dependencies in RWKV
Title（参考訳）: RRWKV:RWKVの長距離依存性をキャプチャする
Authors: Leilei Wang
Abstract要約: 本稿では、RWKVにレトロスペクション機能を組み込むことで、効率的に情報を吸収することで、Retrospected Receptance Weighted Key Valueアーキテクチャを考案する。 RWKVは、線形にテンソル積の注意機構を利用して、時間列モードをデプロイすることで並列化された計算を実現している。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Owing to the impressive dot-product attention, the Transformers have been the dominant architectures in various natural language processing (NLP) tasks. Recently, the Receptance Weighted Key Value (RWKV) architecture follows a non-transformer architecture to eliminate the drawbacks of dot-product attention, where memory and computational complexity exhibits quadratic scaling with sequence length. Although RWKV has exploited a linearly tensor-product attention mechanism and achieved parallelized computations by deploying the time-sequential mode, it fails to capture long-range dependencies because of its limitation on looking back at previous information, compared with full information obtained by direct interactions in the standard transformer. Therefore, the paper devises the Retrospected Receptance Weighted Key Value (RRWKV) architecture via incorporating the retrospecting ability into the RWKV to effectively absorb information, which maintains memory and computational efficiency as well.
Abstract（参考訳）: ドットプロダクティビティの注目により、トランスフォーマーは様々な自然言語処理(NLP)タスクにおいて支配的なアーキテクチャとなっている。近年、Receptance Weighted Key Value (RWKV)アーキテクチャは、メモリと計算の複雑さがシーケンス長の2次スケーリングを示す点積の欠点を取り除くために、非変換アーキテクチャに従っている。 RWKVは、線形にテンソル積の注意機構を利用し、時間列モードを配置することで並列化された計算を実現しているが、標準トランスフォーマーのダイレクトインタラクションによって得られる全情報と比較して、以前の情報を振り返ることに制限があるため、長距離依存を捉えることができない。そこで本稿では,RWKVにレトロスペクション機能を組み込んで,メモリや計算効率の維持を図ることで,Retrospected Receptance Weighted Key Value(RRWKV)アーキテクチャを考案する。

関連論文リスト

KV-Latent: Dimensional-level KV Cache Reduction with Frequency-aware Rotary Positional Embedding [72.12756830560217]
Transformer Decodersをベースとした大規模言語モデル(LLM)が、会話生成AIの選択肢として好まれている。デコーダアーキテクチャの全体的な優位性にもかかわらず、推論中にキーバリューキャッシュが徐々に増加し、主要な効率ボトルネックとなっている。キーバリューベクトル次元を潜在空間にダウンサンプリングすることで、KVキャッシュのフットプリントを大幅に削減し、推論速度を向上させることができる。
論文参考訳（メタデータ） (2025-07-15T12:52:12Z)
Beyond Homogeneous Attention: Memory-Efficient LLMs via Fourier-Approximated KV Cache [67.47789629197857]
本稿では,トランスヘッド次元の不均一な役割を生かした学習自由フレームワークを提案する。フーリエアテンションは、長コンテキスト非感性次元をフーリエ基底に投影することにより、その時間的進化を固定長のスペクトル係数で近似する。本稿では,FourierAttention が LongBench と Needle-In-A-Haystack 上で最高の長文精度を実現することを示す。
論文参考訳（メタデータ） (2025-06-13T15:35:54Z)
Sentinel: Multi-Patch Transformer with Temporal and Channel Attention for Time Series Forecasting [48.52101281458809]
トランスフォーマーに基づく時系列予測は、シーケンシャルデータをモデル化するトランスフォーマーの能力により、近年、強い関心を集めている。チャネル次元からコンテキスト情報を抽出できるエンコーダで構成されるトランスフォーマーベースのアーキテクチャであるSentinelを提案する。マルチパッチアテンション機構を導入し、パッチ処理を利用して入力シーケンスをトランスフォーマーアーキテクチャに自然に組み込むことができるように構成する。
論文参考訳（メタデータ） (2025-03-22T06:01:50Z)
Tensor Product Attention Is All You Need [54.40495407154611]
プロダクトアテンション(TPA)は、テンソル分解を使用してクエリ、キー、値をコンパクトに表現する新しいアテンションメカニズムである。 TPAは、メモリ効率とともに改善されたモデル品質を実現する。本稿では,シーケンスモデリングのための新しいモデルアーキテクチャであるProducT ATTion Transformer (T6)を紹介する。
論文参考訳（メタデータ） (2025-01-11T03:37:10Z)
A Survey of RWKV [16.618320854505786]
Receptance Weighted Key Value (RWKV)モデルは、Transformerアーキテクチャに代わる新しい選択肢を提供する。自己アテンションに大きく依存する従来のトランスフォーマーとは異なり、RWKVは最小限の計算要求で長距離依存を捕捉する。本稿では,このギャップを,RWKVアーキテクチャとその基本原理,および様々な応用の総合的なレビューとして埋めようとしている。
論文参考訳（メタデータ） (2024-12-19T13:39:24Z)
Enhanced Computationally Efficient Long LoRA Inspired Perceiver Architectures for Auto-Regressive Language Modeling [2.9228447484533695]
Transformer アーキテクチャは自然言語処理分野に革命をもたらし、Large Language Models (LLM) のバックボーンとなっている。 Transformerアーキテクチャの課題の1つは、長いシーケンス長の効率的な処理を禁止する注意機構の二次的な複雑さである。この点において重要な研究の1つは、計算の複雑さを減らしながら優れた性能を示したPerceiverクラスのアーキテクチャである。
論文参考訳（メタデータ） (2024-12-08T23:41:38Z)
RecurFormer: Not All Transformer Heads Need Self-Attention [14.331807060659902]
変換器をベースとした大規模言語モデル(LLM)は複雑な言語パターンをモデル化する上で優れているが、推論時にかなりの計算コストに直面している。本稿では,リニアリカレントニューラルネットワークに注意を向ける新しいアーキテクチャであるRecurFormerを提案する。
論文参考訳（メタデータ） (2024-10-10T15:24:12Z)
DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文参考訳（メタデータ） (2024-10-07T07:21:49Z)
PRformer: Pyramidal Recurrent Transformer for Multivariate Time Series Forecasting [82.03373838627606]
Transformerアーキテクチャにおける自己保持機構は、時系列予測において時間順序を符号化するために位置埋め込みを必要とする。この位置埋め込みへの依存は、トランスフォーマーの時間的シーケンスを効果的に表現する能力を制限している、と我々は主張する。本稿では,Prepreを標準的なTransformerエンコーダと統合し,様々な実世界のデータセット上での最先端性能を示す。
論文参考訳（メタデータ） (2024-08-20T01:56:07Z)
An All-MLP Sequence Modeling Architecture That Excels at Copying [6.824179106436217]
コピータスクにおいてトランスフォーマーにマッチする全MLPシーケンスモデリングアーキテクチャを提案する。アブレーション研究では,Transformerレベルのコピーには,指数的アクティベーションとプレアクティベーション正規化が不可欠であることが判明した。
論文参考訳（メタデータ） (2024-06-23T17:19:26Z)
Folded Context Condensation in Path Integral Formalism for Infinite Context Transformers [0.0]
本稿では、パス積分形式論の枠組みの中で、そのコアメカニズムを再解釈することにより、トランスフォーマーアルゴリズムの一般化された定式化を提案する。よりコンパクトで効率的な表現が得られ、シーケンスのコンテキスト情報をメモリのようなセグメントに凝縮する。本稿では,この手法の有効性をPasskey検索タスクと要約タスクで検証し,提案手法が履歴情報を保存し,メモリ使用率とシーケンス長を線形に拡張することを示す。
論文参考訳（メタデータ） (2024-05-07T19:05:26Z)
Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures [99.20299078655376]
本稿では、NLPフィールドで使用されるRWKVモデルから適応したVision-RWKVを紹介する。我々のモデルは、スパース入力を効率的に処理し、ロバストなグローバル処理能力を実証するために設計されている。評価の結果,VRWKVは画像分類におけるViTの性能を超え,高速化とメモリ使用量の削減を図っている。
論文参考訳（メタデータ） (2024-03-04T18:46:20Z)
RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文参考訳（メタデータ） (2023-05-22T13:57:41Z)
Resource-Efficient Separation Transformer [14.666016177212837]
本稿では,トランスフォーマーを用いた音声分離手法について,計算コストの削減による検討を行う。私たちの主な貢献は、自己注意に基づくアーキテクチャであるResource-Efficient separation Transformer (RE-SepFormer)の開発です。 RE-SepFormerは、一般的なWSJ0-2MixとWHAM!データセットにおいて、因果設定と非因果設定の両方で競合するパフォーマンスに達する。
論文参考訳（メタデータ） (2022-06-19T23:37:24Z)
ReconFormer: Accelerated MRI Reconstruction Using Recurrent Transformer [60.27951773998535]
本稿では,MRI再構成のためのリカレントトランスモデルである textbfReconFormer を提案する。高度にアンダーサンプリングされたk空間データから高純度磁気共鳴像を反復的に再構成することができる。パラメータ効率が向上し,最先端手法よりも大幅に向上したことを示す。
論文参考訳（メタデータ） (2022-01-23T21:58:19Z)
CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文参考訳（メタデータ） (2021-12-31T04:37:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。