論文の概要: WuNeng: Hybrid State with Attention
- arxiv url: http://arxiv.org/abs/2504.19191v1
- Date: Sun, 27 Apr 2025 10:48:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.173914
- Title: WuNeng: Hybrid State with Attention
- Title(参考訳): WuNeng: 注意を伴うハイブリッドステート
- Authors: Liu Xiao, Li Zhiyuan, Lin Yueyu,
- Abstract要約: WuNengアーキテクチャは、リカレントニューラルネットワーク(RNN)ベースのRWKV-7と高度な注意機構を統合する。
クロスヘッドインタラクション技術は、標準、状態駆動、新しく導入されたミドルヘッド間の動的シナジーを促進する。
マルチトークン状態処理機構は、連続RWKV-7状態を利用して、複雑なシーケンス全体の依存関係をキャプチャする。
- 参考スコア(独自算出の注目度): 0.747193191854175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The WuNeng architecture introduces a novel approach to enhancing the expressivity and power of large language models by integrating recurrent neural network (RNN)-based RWKV-7 with advanced attention mechanisms, prioritizing heightened contextual coherence over reducing KV cache size. Building upon the hybrid-head concept from Hymba, WuNeng augments standard multi-head attention with additional RWKV-7 state-driven heads, rather than replacing existing heads, to enrich the model's representational capacity. A cross-head interaction technique fosters dynamic synergy among standard, state-driven, and newly introduced middle heads, leveraging concatenation, additive modulation, and gated fusion for robust information integration. Furthermore, a multi-token state processing mechanism harnesses the continuous RWKV-7 state to capture intricate, sequence-wide dependencies, significantly boosting expressivity. Remarkably, these enhancements are achieved with minimal additional parameters, ensuring efficiency while empowering the model to excel in complex reasoning and sequence generation tasks. WuNeng sets a new standard for balancing expressivity and computational efficiency in modern neural architectures.
- Abstract(参考訳): WuNengアーキテクチャは、リカレントニューラルネットワーク(RNN)ベースのRWKV-7と高度な注意機構を統合し、KVキャッシュサイズを減らすことよりもコンテキストコヒーレンスを高めることによって、大きな言語モデルの表現性とパワーを高める新しいアプローチを導入する。
ヒンバのハイブリッドヘッドの概念に基づいて、WuNengはモデルの表現能力を高めるために、既存のヘッドを置き換えるのではなく、RWKV-7のステート駆動ヘッドを追加して標準のマルチヘッドアテンションを強化した。
クロスヘッドインタラクション技術は、整合性、加法的変調、ゲート融合を利用して、標準、状態駆動、そして新しく導入されたミドルヘッド間の動的シナジーを促進する。
さらに、連続したRWKV-7状態を利用して、複雑なシーケンス全体の依存関係をキャプチャし、表現性を著しく向上する。
注目すべきなのは、これらの拡張は最小限の追加パラメータで達成され、複雑な推論やシーケンス生成タスクにおいて、モデルに優れた権限を付与しながら、効率が確保されることだ。
WuNengは、現代のニューラルネットワークアーキテクチャにおいて、表現性と計算効率のバランスをとるための新しい標準を設定している。
関連論文リスト
- Millions of States: Designing a Scalable MoE Architecture with RWKV-7 Meta-learner [0.747193191854175]
RWKV-7のような状態ベースのシーケンスモデルは、Transformerアーキテクチャの魅力的な代替手段を提供する。
RWKV-7の新たな拡張である textbfMeta-State を提案する。
論文 参考訳(メタデータ) (2025-04-11T04:14:32Z) - State Tuning: State-based Test-Time Scaling on RWKV-7 [0.747193191854175]
我々は、RNNベースのRWKV-7モデルに合わせた状態チューニングという、テスト時間スケーリングに対する新しい状態ベースアプローチを導入する。
RWKV-7の独特な強みを生かして,モデルの事前学習重みを変更することなく,目標課題に対する最先端性能を実現する。
論文 参考訳(メタデータ) (2025-04-07T14:04:30Z) - Exploiting Mixture-of-Experts Redundancy Unlocks Multimodal Generative Abilities [69.26544016976396]
我々は、新しいモダリティを学ぶための追加能力の源として、Mixture-of-Experts(MoEs)内の冗長性を利用する。
我々は、新しいモダリティのトークンのみに低ランク適応を適用することで、オリジナルの言語生成能力を保ちます。
論文 参考訳(メタデータ) (2025-03-28T15:21:24Z) - Enhancing RWKV-based Language Models for Long-Sequence Text Generation [0.0]
本稿では、長文言語モデリングを改善するための適応時間ゲーティング機構を備えた拡張RWKVアーキテクチャを提案する。
本研究では,(1)グローバルコヒーレンスを保ちながら局所的な統語パターンを捉える位置認識畳み込みシフト演算子,(2)知識間の情報の流れを動的に制御する神経伝達情報ルーティング機構を提案する。
論文 参考訳(メタデータ) (2025-02-21T14:18:18Z) - Invertible Neural Warp for NeRF [29.00183106905031]
本稿では、ポーズとニューラルラジアンスフィールド(NeRF)の同時最適化に取り組む。
本稿では,モデルカメラが学習可能な剛性ワープ関数として機能する,パラメータの過剰表現を提案する。
提案手法は,合成および実世界のデータセットにおいて,ポーズ推定や高忠実度再構成の点で,既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-07-17T07:14:08Z) - Expressive and Generalizable Low-rank Adaptation for Large Models via Slow Cascaded Learning [55.5715496559514]
LoRA Slow Cascade Learning (LoRASC)は、LoRAの表現性と一般化能力を高めるために設計された革新的な技術である。
提案手法は,混合低ランク適応を可能にするカスケード学習戦略により表現性を増強し,複雑なパターンをキャプチャするモデルの能力を高める。
論文 参考訳(メタデータ) (2024-07-01T17:28:59Z) - A Primal-Dual Framework for Transformers and Neural Networks [52.814467832108875]
自己注意は、シーケンスモデリングタスクにおけるトランスフォーマーの顕著な成功の鍵である。
自己アテンションは、支持ベクトル回帰問題から導かれる支持ベクトル展開に対応することを示す。
Batch Normalized Attention (Attention-BN) と Scaled Head (Attention-SH) の2つの新しい注意点を提案する。
論文 参考訳(メタデータ) (2024-06-19T19:11:22Z) - Orchid: Flexible and Data-Dependent Convolution for Sequence Modeling [4.190836962132713]
本稿では,従来の注意機構の2次複雑さに対処する新しいアーキテクチャであるOrchidを紹介する。
このアーキテクチャのコアには、新しいデータ依存のグローバル畳み込み層があり、入力シーケンスに条件付きカーネルを文脈的に適応させる。
言語モデリングや画像分類など,複数の領域にまたがるモデルの評価を行い,その性能と汎用性を強調した。
論文 参考訳(メタデータ) (2024-02-28T17:36:45Z) - Interpreting and Improving Attention From the Perspective of Large Kernel Convolution [51.06461246235176]
本稿では,LKCA(Large Kernel Convolutional Attention)について紹介する。
LKCAは、特にデータ制約のある設定において、様々な視覚的タスク間での競合性能を達成する。
論文 参考訳(メタデータ) (2024-01-11T08:40:35Z) - Sparse Modular Activation for Efficient Sequence Modeling [94.11125833685583]
線形状態空間モデルと自己アテンション機構を組み合わせた最近のモデルでは、様々なシーケンスモデリングタスクにおいて顕著な結果が示されている。
現在のアプローチでは、アテンションモジュールを静的かつ均一に入力シーケンスのすべての要素に適用し、最適以下の品質効率のトレードオフをもたらす。
SMA(Sparse Modular Activation)は,ニューラルネットワークが配列要素のサブモジュールを異なる方法でスパースに活性化する機構である。
論文 参考訳(メタデータ) (2023-06-19T23:10:02Z) - A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。
Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。
我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。