論文の概要: Cross-attention for State-based model RWKV-7
- arxiv url: http://arxiv.org/abs/2504.14260v1
- Date: Sat, 19 Apr 2025 10:47:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 03:47:22.713976
- Title: Cross-attention for State-based model RWKV-7
- Title(参考訳): 状態ベースモデルRWKV-7のクロスアテンション
- Authors: Liu Xiao, Li Zhiyuan, Lin Yueyu,
- Abstract要約: CrossWKVは、状態ベースのRWKV-7モデルのための新しいクロスアテンションメカニズムである。
CrossWKVはテキストと画像のモダリティを1つのパスに統合する。
モデルの拡張された表現性は、メモリ使用量と線形スケーリングとを合わせて、高度なクロスモーダルタスクのための強力なソリューションとして位置づけられる。
- 参考スコア(独自算出の注目度): 0.747193191854175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce CrossWKV, a novel cross-attention mechanism for the state-based RWKV-7 model, designed to enhance the expressive power of text-to-image generation. Leveraging RWKV-7's linear-complexity Weighted Key-Value (WKV) architecture, CrossWKV integrates text and image modalities in a single pass, utilizing a generalized delta rule with vector-valued gating and low-rank adaptations (LoRA) to achieve superior cross-modal alignment. Unlike Transformer-based models, CrossWKV's non-diagonal, input-dependent transition matrix enables it to represent complex functions beyond the $\mathrm{TC}^0$ complexity class, including all regular languages, as demonstrated by its ability to perform state-tracking tasks like $S_5$ permutation modeling. Evaluated within the Diffusion in RWKV-7 (DIR-7) on datasets such as LAION-5B and ImageNet, CrossWKV achieves a Frechet Inception Distance (FID) of 2.88 and a CLIP score of 0.33 on ImageNet 256x256, matching state-of-the-art performance while offering robust generalization across diverse prompts. The model's enhanced expressivity, combined with constant memory usage and linear scaling, positions it as a powerful solution for advanced cross-modal tasks, with potential applications in high-resolution generation and dynamic state manipulation.Code at https://github.com/TorchRWKV/flash-linear-attention
- Abstract(参考訳): 我々は,テキスト・ツー・イメージ生成の表現力を高めるために,状態ベースRWKV-7モデルのための新しいクロスアテンション機構であるCrossWKVを紹介する。
RWKV-7の線形複素重み付きキー-バリュー(WKV)アーキテクチャを活用することで、CrossWKVはテキストと画像のモダリティを単一のパスに統合し、ベクトル値ゲーティングとローランク適応(LoRA)による一般化デルタルールを利用して、優れたクロスモーダルアライメントを実現する。
Transformerベースのモデルとは異なり、CrossWKVの非対角的な入力依存遷移行列は、$S_5$置換モデリングのような状態追跡タスクを実行する能力によって示されるように、すべての正規言語を含む、$\mathrm{TC}^0$複雑性クラス以外の複雑な関数を表現することができる。
LAION-5BやImageNetなどのデータセット上のRWKV-7(DIR-7)の拡散の中で評価されたCrossWKVは、Frechet Inception Distance(FID)の2.88、ImageNet 256x256のCLIPスコアの0.33を達成し、さまざまなプロンプトをまたいだ堅牢な一般化を提供する。
定数メモリの使用と線形スケーリングを組み合わせたモデルの拡張された表現性は、高度なクロスモーダルタスクのための強力なソリューションとして位置づけられ、高解像度な生成と動的状態操作の潜在的な応用が期待できる。
関連論文リスト
- RWKV-X: A Linear Complexity Hybrid Language Model [7.74296978323232]
我々は、短距離モデリングのためのRWKVの効率性と、長距離コンテキストをキャプチャするスパースアテンション機構を組み合わせた、新しいハイブリッドアーキテクチャであるtextbfRWKV-Xを紹介する。
RWKV-Xは,64Kパスキー検索ベンチマークにおいて,64K-tokenシーケンスで連続的に事前訓練された場合,ほぼ完全であることを示す。
これらの結果から、RWKV-Xは汎用言語モデリングのスケーラブルで効率的なバックボーンであり、100万個のトークンを安定な速度とメモリ使用量で復号できることを示した。
論文 参考訳(メタデータ) (2025-04-30T09:38:17Z) - Millions of States: Designing a Scalable MoE Architecture with RWKV-7 Meta-learner [0.747193191854175]
RWKV-7のような状態ベースのシーケンスモデルは、Transformerアーキテクチャの魅力的な代替手段を提供する。
RWKV-7の新たな拡張である textbfMeta-State を提案する。
論文 参考訳(メタデータ) (2025-04-11T04:14:32Z) - Tensor Product Attention Is All You Need [54.40495407154611]
プロダクトアテンション(TPA)は、テンソル分解を使用してクエリ、キー、値をコンパクトに表現する新しいアテンションメカニズムである。
TPAは、メモリ効率とともに改善されたモデル品質を実現する。
本稿では,シーケンスモデリングのための新しいモデルアーキテクチャであるProducT ATTion Transformer (T6)を紹介する。
論文 参考訳(メタデータ) (2025-01-11T03:37:10Z) - Exploring Real&Synthetic Dataset and Linear Attention in Image Restoration [47.26304397935705]
画像復元は、劣化した入力から高品質な画像を復元することを目的としている。
既存のメソッドにはイテレーションと設定のための統一的なトレーニングベンチマークがない。
本稿では,画像複雑性に基づいた新しい画像フィルタリング手法であるReSynという大規模IRデータセットを提案する。
論文 参考訳(メタデータ) (2024-12-05T02:11:51Z) - Diffusion-RWKV: Scaling RWKV-Like Architectures for Diffusion Models [33.372947082734946]
本稿では,NLPで使用されるRWKVモデルに適応した一連のアーキテクチャについて紹介する。
我々のモデルは、追加条件で順序付けされた入力を効率的に処理すると同時に、効果的にスケールアップするように設計されている。
その顕著な利点は空間集約の複雑さの低減であり、高解像度画像の処理に非常に適している。
論文 参考訳(メタデータ) (2024-04-06T02:54:35Z) - Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures [96.00848293994463]
本稿では、NLPフィールドで使用されるRWKVモデルから適応したVision-RWKVを紹介する。
我々のモデルは、スパース入力を効率的に処理し、ロバストなグローバル処理能力を実証するために設計されている。
評価の結果,VRWKVは画像分類におけるViTの性能を超え,高速化とメモリ使用量の削減を図っている。
論文 参考訳(メタデータ) (2024-03-04T18:46:20Z) - DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets [95.84755169585492]
本研究では,屋外3次元知覚のためのシングルストライドウィンドウベースのボクセルトランスであるDynamic Sparse Voxel Transformer (DSVT)を提案する。
本モデルでは,3次元認識タスクを多岐にわたって行うことにより,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-01-15T09:31:58Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z) - Dynamic Region-Aware Convolution [85.20099799084026]
本稿では,複数のフィルタを対応する空間領域に自動的に割り当てる動的領域認識畳み込み(DRConv)を提案する。
ImageNet分類において、DRConvベースのShuffleNetV2-0.5xは6.3%の相対的な改善と46M乗算加算レベルで67.1%の最先端性能を達成する。
論文 参考訳(メタデータ) (2020-03-27T05:49:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。