論文の概要: DREAMSTATE: Diffusing States and Parameters for Recurrent Large Language Models
- arxiv url: http://arxiv.org/abs/2601.19221v1
- Date: Tue, 27 Jan 2026 05:42:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.193171
- Title: DREAMSTATE: Diffusing States and Parameters for Recurrent Large Language Models
- Title(参考訳): DREAMSTATE: 逐次大言語モデルにおける状態とパラメータの拡散
- Authors: Liu Xiao,
- Abstract要約: リカレントニューラルネットワーク(RNN)は、その強力な短距離モデリング機能と効率的な固定サイズ状態によって区別される。
しかし、編集可能な知識表現としての内部状態についての研究は著しく欠落している。
まず、DREAMSTATEフレームワークを提案することにより、RWKV状態の表現特性について検討する。
我々はRNNの局所的な利点とグローバルな文脈適応性を組み合わせた新しいハイブリッドアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 0.7364191922317778
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern Recurrent Neural Networks (RNNs), such as RWKV, are distinguished by their powerful short-range modeling capabilities and efficient fixed-size states, which constitute a core advantage over standard Transformers. However, there is a significant lack of research into their internal state as an editable knowledge representation. To fill this gap, we first explore the representational properties of the RWKV state by proposing the DREAMSTATE framework. This framework utilizes a conditional Diffusion Transformer (DiT) to directly model the probability manifold of the state, enabling its generation and editing. The structural nature of this representation is validated through t-SNE visualizations and controlled generation experiments. After successfully uncovering and modeling the state's representational potential, we further propose a novel hybrid architecture that combines the local advantages of RNNs with global context adaptability. This architecture features a parallel DiT that processes a variable-length global context to dynamically generate and adjust the core recurrent module's WKV parameters, transforming the fixed recurrence mechanism into a context-aware dynamic function. Experiments demonstrate that this hybrid model can be trained stably via a multi-objective loss, validating its design feasibility. Our work not only opens a new research direction for RNN state representation but also provides a concrete architectural reference for future model design. The code is publicly available at: https://huggingface.co/2dgx41s/DreamState.
- Abstract(参考訳): RWKVのような現代のリカレントニューラルネットワーク(RNN)は、その強力なショートレンジモデリング能力と効率的な固定サイズ状態によって区別される。
しかし、編集可能な知識表現としての内部状態についての研究は著しく欠落している。
このギャップを埋めるために、まずDREAMSTATEフレームワークを提案することにより、RWKV状態の表現特性について検討する。
このフレームワークは条件付き拡散変換器(DiT)を使用して状態の確率多様体を直接モデル化し、その生成と編集を可能にする。
この表現の構造特性は、t-SNE可視化と制御された生成実験によって検証される。
さらに,RNNの局所的な利点とグローバルな文脈適応性を組み合わせたハイブリッドアーキテクチャを提案する。
このアーキテクチャは、可変長グローバルコンテキストを処理する並列DiTを特徴とし、コアリカレントモジュールのWKVパラメータを動的に生成し、調整し、固定されたリカレンス機構をコンテキスト対応の動的関数に変換する。
実験により、このハイブリッドモデルは、多目的損失によって安定的に訓練でき、その設計可能性を検証することができる。
我々の研究は、RNN状態表現の新しい研究方向を開くだけでなく、将来のモデル設計のための具体的なアーキテクチャ参照も提供する。
コードは、https://huggingface.co/2dgx41s/DreamState.comで公開されている。
関連論文リスト
- H-Model: Dynamic Neural Architectures for Adaptive Processing [0.0]
本稿では、入力データに基づいて内部構造を動的に調整できるニューラルネットワークアーキテクチャの設計と実験について述べる。
提案モデルでは,各層がネットワークを介して出力がどのように伝搬されるかに影響を与えるルーティング機構を導入している。
論文 参考訳(メタデータ) (2025-11-11T14:39:42Z) - Flexible Language Modeling in Continuous Space with Transformer-based Autoregressive Flows [46.673228292287895]
本稿では,連続表現のモデル化にトランスフォーマーに基づく自己回帰正規化フローを用いた新しいフレームワークを提案する。
このアプローチは大きな柔軟性を解放し、グローバルな双方向コンテキストをキャプチャ可能なモデルの構築を可能にします。
離散データによって形成される潜在空間内の複雑な依存関係をキャプチャする混合結合変換を提案する。
論文 参考訳(メタデータ) (2025-07-01T04:51:25Z) - Structural Similarity-Inspired Unfolding for Lightweight Image Super-Resolution [88.20464308588889]
効率的な画像SRのための構造類似インスパイアド・アンフォールディング(SSIU)法を提案する。
この方法は、構造的類似性に制約されたSR最適化関数の展開によって設計される。
我々のモデルは現在の最先端モデルより優れており、パラメータ数が低く、メモリ消費が減少している。
論文 参考訳(メタデータ) (2025-06-13T14:29:40Z) - Universal In-Context Approximation By Prompting Fully Recurrent Models [86.61942787684272]
RNN,LSTM,GRU,Linear RNN,Linear RNN,Line gated Architecturesは,汎用のインコンテキスト近似器として機能することを示す。
完全反復アーキテクチャにコンパイルするLSRLというプログラミング言語を導入する。
論文 参考訳(メタデータ) (2024-06-03T15:25:13Z) - Does Transformer Interpretability Transfer to RNNs? [0.6437284704257459]
近年のリカレントニューラルネットワークアーキテクチャの進歩により、RNNは等サイズトランスの性能に適合または超えることが可能になった。
本稿では,RNNの圧縮状態を利用して,これらの手法のいくつかを改善することができることを示す。
論文 参考訳(メタデータ) (2024-04-09T02:59:17Z) - Enhancing NeRF akin to Enhancing LLMs: Generalizable NeRF Transformer
with Mixture-of-View-Experts [88.23732496104667]
クロスシーンの一般化可能なNeRFモデルは、NeRFフィールドの新たなスポットライトとなっている。
我々は、大規模言語モデルから強力なMixture-of-Experts(MoE)のアイデアを"神経化"アーキテクチャにブリッジする。
提案手法は,GNT-MOVE (Mixture-of-View-Experts) とよばれるモデルで,未知のシーンに移動する際の最先端の結果を実験的に示す。
論文 参考訳(メタデータ) (2023-08-22T21:18:54Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Understanding Dynamics of Nonlinear Representation Learning and Its
Application [12.697842097171119]
暗黙的非線形表現学習のダイナミクスについて検討する。
我々は,データ構造アライメント条件がグローバル収束に十分であることを示す。
我々はデータ構造アライメント条件を満たす新しいトレーニングフレームワークを作成した。
論文 参考訳(メタデータ) (2021-06-28T16:31:30Z) - Decoupling Global and Local Representations via Invertible Generative
Flows [47.366299240738094]
標準画像ベンチマークによる実験結果から, 密度推定, 画像生成, 教師なし表現学習の観点から, モデルの有効性が示された。
この研究は、確率に基づく目的を持つ生成モデルが疎結合表現を学習でき、明示的な監督を必要としないことを示した。
論文 参考訳(メタデータ) (2020-04-12T03:18:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。