論文の概要: Comba: Improving Nonlinear RNNs with Closed-loop Control
- arxiv url: http://arxiv.org/abs/2506.02475v1
- Date: Tue, 03 Jun 2025 05:44:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.302508
- Title: Comba: Improving Nonlinear RNNs with Closed-loop Control
- Title(参考訳): Comba: 閉ループ制御による非線形RNNの改善
- Authors: Jiaxi Hu, Yongqi Pan, Jusen Du, Disen Lan, Xiaqiang Tang, Qingsong Wen, Yuxuan Liang, Weigao Sun,
- Abstract要約: 本稿では,これらのモデルの利点と限界を包括的に分析し,RNNの概念を紹介する。
我々は、状態フィードバックと出力フィードバックの両補正を備えたスカラー+低ランク状態遷移を採用した新しいRNN変種Combaを提案する。
Combaは、言語とビジョンモデリングの両方において、優れたパフォーマンスと効率を示す。
- 参考スコア(独自算出の注目度): 19.761486052705017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent efficient sequence modeling methods such as Gated DeltaNet, TTT, and RWKV-7 have achieved performance improvements by supervising the recurrent memory management through Delta learning rule. Unlike previous state-space models (e.g., Mamba) and gated linear attentions (e.g., GLA), these models introduce interactions between the recurrent state and the key vector, resulting in a nonlinear recursive structure. In this paper, we first introduce the concept of Nonlinear RNNs with a comprehensive analysis on the advantages and limitations of these models. Then, based on closed-loop control theory, we propose a novel Nonlinear RNN variant named Comba, which adopts a scalar-plus-low-rank state transition, with both state feedback and output feedback corrections. We also implement a hardware-efficient chunk-wise parallel kernel in Triton and train models with 340M/1.3B parameters on large-scale corpus. Comba demonstrates its superior performance and computation efficiency in both language and vision modeling.
- Abstract(参考訳): Gated DeltaNet, TTT, RWKV-7 などの近年の効率的なシーケンスモデリング手法は, デルタ学習規則を通したリカレントメモリ管理を監督することにより, 性能改善を実現している。
従来の状態空間モデル(例えば、Mamba)やゲート線形アテンション(例えば、GLA)とは異なり、これらのモデルはリカレント状態とキーベクトルの間の相互作用を導入し、非線形再帰構造をもたらす。
本稿では,これらのモデルの利点と限界を包括的に分析した非線形RNNの概念を最初に紹介する。
次に、閉ループ制御理論に基づいて、状態フィードバックと出力フィードバックの両補正を備えたスカラー+ローランク状態遷移を採用した、新しい非線形RNN変種Combaを提案する。
また,大規模コーパス上での340M/1.3Bパラメータのトレーニングモデルと,ハードウェア効率のよいチャンクワイド並列カーネルを実装した。
Combaは、言語と視覚の両方で、優れたパフォーマンスと計算効率を示す。
関連論文リスト
- Sequential-Parallel Duality in Prefix Scannable Models [68.39855814099997]
近年では Gated Linear Attention (GLA) や Mamba など様々なモデルが開発されている。
ニアコンスタント時間並列評価と線形時間、定数空間シーケンシャル推論をサポートするニューラルネットワークモデルの全クラスを特徴付けることができるだろうか?
論文 参考訳(メタデータ) (2025-06-12T17:32:02Z) - MesaNet: Sequence Modeling by Locally Optimal Test-Time Training [67.45211108321203]
我々は,最近提案されたMesa層の数値的に安定かつチャンクワイズ可能な並列化版を導入する。
テストタイムの最適トレーニングにより、従来のRNNよりも言語モデリングの難易度が低く、ダウンストリームベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2025-06-05T16:50:23Z) - DeltaProduct: Improving State-Tracking in Linear RNNs via Householder Products [63.66021758150632]
リニアリカレントニューラルネットワーク(線形RNN)は、シーケンスモデリングのためのトランスフォーマーの競合代替手段として登場した。
既存のアーキテクチャは、その状態遷移行列の構造によって規定される、表現性と効率の基本的なトレードオフに直面している。
我々はDeltaProductを紹介し、トークンごとに複数の(n_h$)ステップを踏んで、状態追跡と言語モデリングの優れた機能を実現する。
論文 参考訳(メタデータ) (2025-02-14T16:59:05Z) - Bilinear Convolution Decomposition for Causal RL Interpretability [0.0]
強化学習(RL)モデルを解釈する試みは、しばしば帰属や探究のような高度な技術に依存している。
本研究では、畳み込みニューラルネットワーク(ConvNets)の非線形性を双線型変種に置き換え、これらの制限に対処可能なモデルのクラスを作成することを提案する。
モデルフリー強化学習環境では,バイリニアモデルの変形が相容れないことを示し,ProcGen環境上での並べ比較を行う。
論文 参考訳(メタデータ) (2024-12-01T19:32:04Z) - Behavior-Dependent Linear Recurrent Units for Efficient Sequential Recommendation [18.75561256311228]
RecBLRは、振舞い依存リニアリカレントユニットに基づく効率的なシークエンシャルレコメンデーションモデルである。
本モデルは,ユーザの行動モデリングとレコメンデーション性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-06-18T13:06:58Z) - Parallelizing Linear Transformers with the Delta Rule over Sequence Length [49.88826673324244]
この研究は、デルタ則で線形変圧器を訓練するためのハードウェア効率の良いアルゴリズムについて述べる。
我々は100Bトークンに対して1.3Bモデルをトレーニングし、最近の線形時間ベースラインよりも優れていることを発見した。
論文 参考訳(メタデータ) (2024-06-10T17:24:42Z) - Solving Inverse Problems with Model Mismatch using Untrained Neural Networks within Model-based Architectures [14.551812310439004]
モデルベースアーキテクチャでは,各インスタンスの計測領域におけるデータの一貫性を一致させるために,トレーニングされていないフォワードモデル残差ブロックを導入する。
提案手法は,パラメータ感受性が低く,追加データを必要としない統一解を提供し,前方モデルの同時適用と1パスの再構成を可能にする。
論文 参考訳(メタデータ) (2024-03-07T19:02:13Z) - Data-driven Nonlinear Model Reduction using Koopman Theory: Integrated
Control Form and NMPC Case Study [56.283944756315066]
そこで本研究では,遅延座標符号化と全状態復号化を組み合わせた汎用モデル構造を提案し,Koopmanモデリングと状態推定を統合した。
ケーススタディでは,本手法が正確な制御モデルを提供し,高純度極低温蒸留塔のリアルタイム非線形予測制御を可能にすることを実証している。
論文 参考訳(メタデータ) (2024-01-09T11:54:54Z) - TransNormerLLM: A Faster and Better Large Language Model with Improved
TransNormer [34.790081960470964]
最初の線形注意に基づくLarge Language Model(LLM)であるTransNormerLLMを提案する。
我々は, 位置埋め込み, 線形注意加速度, ゲーティング機構, テンソル正規化, 推論加速度, 安定化など, 高度な修正を行う。
自己収集コーパス上に385M, 1B, 7Bの大きさの列車モデルとアブリケーションを用いてモデル設計を検証する。
論文 参考訳(メタデータ) (2023-07-27T16:45:33Z) - Comparative analysis of machine learning methods for active flow control [60.53767050487434]
遺伝的プログラミング(GP)と強化学習(RL)はフロー制御において人気を集めている。
この研究は2つの比較分析を行い、地球規模の最適化手法に対して最も代表的なアルゴリズムのいくつかをベンチマークする。
論文 参考訳(メタデータ) (2022-02-23T18:11:19Z) - LQF: Linear Quadratic Fine-Tuning [114.3840147070712]
本稿では,非線形微調整に匹敵する性能を実現する事前学習モデルの線形化手法を提案する。
LQFはアーキテクチャの単純な変更、損失関数、そして一般的に分類に使用される最適化で構成されている。
論文 参考訳(メタデータ) (2020-12-21T06:40:20Z) - Nonlinear State-Space Generalizations of Graph Convolutional Neural
Networks [172.18295279061607]
グラフ畳み込みニューラルネットワーク(GCNN)は、線形グラフ畳み込みを非線形にネストすることで、ネットワークデータから構成表現を学習する。
本稿では,GCNNを状態空間の観点からアプローチし,グラフ畳み込みモジュールが最小値線形状態空間モデルであることを明らかにする。
この状態更新は、非パラメトリックであり、グラフスペクトルによって爆発または消滅する可能性があるため、問題となる可能性がある。
本稿では,非線形な状態空間パラメトリック方式でノード特徴を階層内に集約し,よりよいトレードオフを実現するという,新しい結節集合規則を提案する。
論文 参考訳(メタデータ) (2020-10-27T19:48:56Z) - State space models for building control: how deep should you go? [3.1171750528972204]
本研究は, ビルディング制御にRNNを用いることで, MPCフレームワークでネットゲインが得られるかどうかを系統的に検討する。
温度の1時間予測誤差はRNNモデルより69%低い。
線形状態空間モデルは、目的関数で10%向上し、2.8倍の温度違反を示し、RNNモデルに必要な時間の3分の1を必要とする。
論文 参考訳(メタデータ) (2020-10-23T09:38:43Z) - Revisiting Graph based Collaborative Filtering: A Linear Residual Graph
Convolutional Network Approach [55.44107800525776]
グラフ畳み込みネットワーク(GCN)は、最先端のグラフベースの表現学習モデルである。
本稿では、GCNベースの協調フィルタリング(CF)ベースのレコメンダシステム(RS)について再検討する。
単純なグラフ畳み込みネットワークの理論と整合して,非線形性を取り除くことで推奨性能が向上することを示す。
本稿では,ユーザ・イテム相互作用モデリングを用いたCF用に特別に設計された残差ネットワーク構造を提案する。
論文 参考訳(メタデータ) (2020-01-28T04:41:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。