論文の概要: Bilinear Input Modulation for Mamba: Koopman Bilinear Forms for Memory Retention and Multiplicative Computation
- arxiv url: http://arxiv.org/abs/2604.17221v2
- Date: Sun, 26 Apr 2026 12:14:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:06.872923
- Title: Bilinear Input Modulation for Mamba: Koopman Bilinear Forms for Memory Retention and Multiplicative Computation
- Title(参考訳): マンバの双線形入力変調:メモリ保持と乗算計算のためのクープマン双線形形式
- Authors: Hiroki Fujii, Masaki Yamakita,
- Abstract要約: SSM(Selective State Space Models)は、メモリ保持と双線形計算能力の両方を制限する対角状態遷移を用いる。
有限次元クープマン双線型形式として解釈可能な状態入力積でSSMを増大させる因子化双線形入力変調を提案する。
- 参考スコア(独自算出の注目度): 0.5156484100374058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Selective State Space Models (SSMs), notably Mamba, employ diagonal state transitions that limit both memory retention and bilinear computational capacity. We propose a factorized bilinear input modulation that augments the SSM with a state-input product, interpretable as a finite-dimensional Koopman bilinear form. After introducing a shared state across channels (Coupled SSM), the modulation admits three implementations. Coupled Bilinear Input Modulation (seq-BIM) retains the full bilinear product on the input side at the cost of sequential computation, Coupled Gated Modulation (GM) linearizes it into a gate modulation that is compatible with the parallel scan, and Parallel Bilinear Input Modulation (p-BIM) places the same bilinear product on the state transition while remaining parallel-scannable. Experiments on a multiple input-delay pendulum (memory retention) and NARMA-10 (bilinear computation) reveal a clear dissociation. GM substantially improves memory retention but not bilinear computation, while both seq-BIM and p-BIM improve both. A pathway ablation confirms that the two downstream routes of the bilinear signal serve complementary roles. The improvement is statistically robust, with the bilinear variants consistently outperforming the other variants on bilinear computation. Furthermore, only the bilinear variants benefit from increasing the SSM state dimension, while coupling or gate modulation alone show no improvement, establishing the bilinear mechanism as uniquely capable of exploiting larger state spaces.
- Abstract(参考訳): 選択状態空間モデル(SSM)、特にマンバは、メモリ保持と双線形計算能力の両方を制限する対角状態遷移を用いる。
有限次元クープマン双線型形式として解釈可能な状態入力積でSSMを増大させる因子化双線形入力変調を提案する。
チャネル間の共有状態(結合SSM)を導入した後、変調は3つの実装を許容する。
Coupled Bilinear Input Modulation (seq-BIM)は、逐次計算のコストで入力側の完全双線形積を保持し、Coupled Gated Modulation (GM)はそれを並列走査と互換性のあるゲート変調に線形化し、Parallel Bilinear Input Modulation (p-BIM)は、同じ双線形積を並列走査可能な状態遷移に配置する。
複数入力遅延振り子(メモリ保持)と NARMA-10(双線形計算)の実験により明らかな解離が明らかになった。
GMはメモリ保持を大幅に改善するが、双線形計算は行わず、セックBIMとp-BIMはどちらも改善する。
経路アブレーションにより、両線信号の2つの下流経路が相補的な役割を果たすことが確認される。
この改良は統計的に堅牢であり、双線形変種は双線形計算において他の変種よりも一貫して優れていた。
さらに、二線形変種のみがSSM状態次元の増大の恩恵を受ける一方、カップリングやゲート変調だけでは改善は見られず、より大きな状態空間を活用可能な双線形機構を確立した。
関連論文リスト
- Breaking the Memory Wall: Exact Analytical Differentiation via Tiled Operator-Space Evolution [3.551701030393209]
位相勾配流(PGF)は、状態空間多様体で直接操作することで正確な解析微分を計算するフレームワークである。
提案手法は,最大VRAMの94%削減,スループットの23倍のO(1)メモリの複雑性を実現する。
我々の研究は1つのGPU上で染色体スケールの感度解析を可能にし、理論的な無限コンテキストモデルと実用的なハードウェアの限界のギャップを埋める。
論文 参考訳(メタデータ) (2025-12-28T20:27:58Z) - Apriel-H1: Towards Efficient Enterprise Reasoning Models [6.630534140883356]
ハイブリッドLLMのApriel-H1ファミリーは、15Bモデルサイズでの効率的な推論のためにトランスフォーマーアテンションとSSMシークエンスミキサーを組み合わせた。
SSM-to-MHA比の異なるApriel-H1-15B-Thinkerの蒸留後変種を複数リリースし、より多くのマンバ層がMHAに置き換わるにつれて、推論性能が劣化するかを分析した。
論文 参考訳(メタデータ) (2025-11-04T15:17:43Z) - Log-Linear Attention [81.09631871212211]
本稿では,線形注意の効率とソフトマックス注意の表現性をバランスさせる注意機構である対数線形注意を開発する。
特定の成長関数を用いて、対数線形アテンションは、計算コストが列長で対数線形である類似のマトゥルリッチ並列形式を許容することを示す。
ログ線形アテンションは一般的なフレームワークであり、既存の線形アテンションのバリエーションの上に適用することができる。
論文 参考訳(メタデータ) (2025-06-05T08:44:51Z) - Comba: Improving Bilinear RNNs with Closed-loop Control [57.800320390698516]
本稿では,これらのモデルの利点と限界を包括的に分析したBilinear RNNの概念を紹介する。
我々は,状態フィードバックと出力フィードバックの両補正を併用した,スカラー+低ランク状態遷移を取り入れた新しいバイリニアRNNであるCombaを提案する。
また,大規模コーパス上での340M/1.3Bパラメータのトレーニングモデルと,ハードウェア効率のよいチャンクワイド並列カーネルを実装した。
論文 参考訳(メタデータ) (2025-06-03T05:44:50Z) - MID-L: Matrix-Interpolated Dropout Layer with Layer-wise Neuron Selection [0.0]
Matrix-Interpolated Dropout Layer (MID-L) は、最も情報性の高いニューロンのみを動的に選択し、活性化する。
MNIST, CIFAR-10, CIFAR-100, SVHN, UCI adult, IMDB の6つのベンチマークによる実験の結果, MID-L は活動ニューロンの55%まで減少することがわかった。
論文 参考訳(メタデータ) (2025-05-16T16:29:19Z) - Joint Transmit and Pinching Beamforming for Pinching Antenna Systems (PASS): Optimization-Based or Learning-Based? [89.05848771674773]
MISO (Multiple-input Single-output) フレームワークを提案する。
それは複数の導波路で構成されており、多数の低コストアンテナ(PA)を備えている。
PAの位置は、大規模パスと空間の両方にまたがるように再構成することができる。
論文 参考訳(メタデータ) (2025-02-12T18:54:10Z) - Multi-Objective Matrix Normalization for Fine-grained Visual Recognition [153.49014114484424]
双線形プールは細粒度視覚認識(FGVC)において大きな成功を収める
近年,行列パワー正規化は双線形特徴量において2次情報を安定化させることができることが示されている。
両線形表現を同時に正規化できる効率的な多目的行列正規化法(MOMN)を提案する。
論文 参考訳(メタデータ) (2020-03-30T08:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。