論文の概要: Comba: Improving Bilinear RNNs with Closed-loop Control
- arxiv url: http://arxiv.org/abs/2506.02475v3
- Date: Sat, 21 Jun 2025 08:52:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 14:54:00.35907
- Title: Comba: Improving Bilinear RNNs with Closed-loop Control
- Title(参考訳): Comba: 閉ループ制御によるバイリニアRNNの改善
- Authors: Jiaxi Hu, Yongqi Pan, Jusen Du, Disen Lan, Xiaqiang Tang, Qingsong Wen, Yuxuan Liang, Weigao Sun,
- Abstract要約: 本稿では,これらのモデルの利点と限界を包括的に分析したBilinear RNNの概念を紹介する。
我々は,状態フィードバックと出力フィードバックの両補正を併用した,スカラー+低ランク状態遷移を取り入れた新しいバイリニアRNNであるCombaを提案する。
また,大規模コーパス上での340M/1.3Bパラメータのトレーニングモデルと,ハードウェア効率のよいチャンクワイド並列カーネルを実装した。
- 参考スコア(独自算出の注目度): 19.761486052705017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent efficient sequence modeling methods such as Gated DeltaNet, TTT, and RWKV-7 have achieved performance improvements by supervising the recurrent memory management through Delta learning rule. Unlike previous state-space models (e.g., Mamba) and gated linear attentions (e.g., GLA), these models introduce interactions between the recurrent state and the key vector, structurally resembling bilinear systems. In this paper, we first introduce the concept of Bilinear RNNs with a comprehensive analysis on the advantages and limitations of these models. Then, based on closed-loop control theory, we propose a novel Bilinear RNN variant named Comba, which adopts a scalar-plus-low-rank state transition, with both state feedback and output feedback corrections. We also implement a hardware-efficient chunk-wise parallel kernel in Triton and train models with 340M/1.3B parameters on large-scale corpus. Comba demonstrates superior performance and computation efficiency in both language and vision modeling.
- Abstract(参考訳): Gated DeltaNet, TTT, RWKV-7 などの近年の効率的なシーケンスモデリング手法は, デルタ学習規則を通したリカレントメモリ管理を監督することにより, 性能改善を実現している。
従来の状態空間モデル(例えば、Mamba)やゲート線形アテンション(例えば、GLA)とは異なり、これらのモデルはリカレント状態とキーベクトルの間の相互作用を導入し、構造的には双線型系に似ている。
本稿では,これらのモデルの利点と限界を包括的に分析したBilinear RNNの概念を最初に紹介する。
次に、閉ループ制御理論に基づいて、状態フィードバックと出力フィードバックの両補正を備えたスカラー・アンド・ローランク状態遷移を採用する、Comba という新しいバイリニア RNN 変種を提案する。
また,大規模コーパス上での340M/1.3Bパラメータのトレーニングモデルと,ハードウェア効率のよいチャンクワイド並列カーネルを実装した。
Combaは言語と視覚の両方で優れた性能と計算効率を示す。
関連論文リスト
- DeltaProduct: Improving State-Tracking in Linear RNNs via Householder Products [63.66021758150632]
リニアリカレントニューラルネットワーク(線形RNN)は、シーケンスモデリングのためのトランスフォーマーの競合代替手段として登場した。
既存のアーキテクチャは、その状態遷移行列の構造によって規定される、表現性と効率の基本的なトレードオフに直面している。
我々はDeltaProductを紹介し、トークンごとに複数の(n_h$)ステップを踏んで、状態追跡と言語モデリングの優れた機能を実現する。
論文 参考訳(メタデータ) (2025-02-14T16:59:05Z) - Solving Inverse Problems with Model Mismatch using Untrained Neural Networks within Model-based Architectures [14.551812310439004]
モデルベースアーキテクチャでは,各インスタンスの計測領域におけるデータの一貫性を一致させるために,トレーニングされていないフォワードモデル残差ブロックを導入する。
提案手法は,パラメータ感受性が低く,追加データを必要としない統一解を提供し,前方モデルの同時適用と1パスの再構成を可能にする。
論文 参考訳(メタデータ) (2024-03-07T19:02:13Z) - Data-driven Nonlinear Model Reduction using Koopman Theory: Integrated
Control Form and NMPC Case Study [56.283944756315066]
そこで本研究では,遅延座標符号化と全状態復号化を組み合わせた汎用モデル構造を提案し,Koopmanモデリングと状態推定を統合した。
ケーススタディでは,本手法が正確な制御モデルを提供し,高純度極低温蒸留塔のリアルタイム非線形予測制御を可能にすることを実証している。
論文 参考訳(メタデータ) (2024-01-09T11:54:54Z) - LQF: Linear Quadratic Fine-Tuning [114.3840147070712]
本稿では,非線形微調整に匹敵する性能を実現する事前学習モデルの線形化手法を提案する。
LQFはアーキテクチャの単純な変更、損失関数、そして一般的に分類に使用される最適化で構成されている。
論文 参考訳(メタデータ) (2020-12-21T06:40:20Z) - Nonlinear State-Space Generalizations of Graph Convolutional Neural
Networks [172.18295279061607]
グラフ畳み込みニューラルネットワーク(GCNN)は、線形グラフ畳み込みを非線形にネストすることで、ネットワークデータから構成表現を学習する。
本稿では,GCNNを状態空間の観点からアプローチし,グラフ畳み込みモジュールが最小値線形状態空間モデルであることを明らかにする。
この状態更新は、非パラメトリックであり、グラフスペクトルによって爆発または消滅する可能性があるため、問題となる可能性がある。
本稿では,非線形な状態空間パラメトリック方式でノード特徴を階層内に集約し,よりよいトレードオフを実現するという,新しい結節集合規則を提案する。
論文 参考訳(メタデータ) (2020-10-27T19:48:56Z) - State space models for building control: how deep should you go? [3.1171750528972204]
本研究は, ビルディング制御にRNNを用いることで, MPCフレームワークでネットゲインが得られるかどうかを系統的に検討する。
温度の1時間予測誤差はRNNモデルより69%低い。
線形状態空間モデルは、目的関数で10%向上し、2.8倍の温度違反を示し、RNNモデルに必要な時間の3分の1を必要とする。
論文 参考訳(メタデータ) (2020-10-23T09:38:43Z) - Revisiting Graph based Collaborative Filtering: A Linear Residual Graph
Convolutional Network Approach [55.44107800525776]
グラフ畳み込みネットワーク(GCN)は、最先端のグラフベースの表現学習モデルである。
本稿では、GCNベースの協調フィルタリング(CF)ベースのレコメンダシステム(RS)について再検討する。
単純なグラフ畳み込みネットワークの理論と整合して,非線形性を取り除くことで推奨性能が向上することを示す。
本稿では,ユーザ・イテム相互作用モデリングを用いたCF用に特別に設計された残差ネットワーク構造を提案する。
論文 参考訳(メタデータ) (2020-01-28T04:41:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。