論文の概要: On the Expressive Power and Limitations of Multi-Layer SSMs
- arxiv url: http://arxiv.org/abs/2604.14501v1
- Date: Thu, 16 Apr 2026 00:30:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.658042
- Title: On the Expressive Power and Limitations of Multi-Layer SSMs
- Title(参考訳): 多層SSMの表現力と限界について
- Authors: Nikola Zubić, Qian Li, Yuyi Wang, Davide Scaramuzza,
- Abstract要約: 多層状態空間モデル(SSM)の表現力と限界について検討する。
まず,多層SSMが構成課題の基本的な制限に直面していることを示し,SSMとストリーミングモデルの間に固有のギャップがあることを明らかにする。
最後に、幅と精度のトレードオフを調査し、これらの資源がベースモデルでは交換できないが、オンラインCoTが許可されれば、クリーンな等価性を認めることを示す。
- 参考スコア(独自算出の注目度): 22.276732262979678
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the expressive power and limitations of multi-layer state-space models (SSMs). First, we show that multi-layer SSMs face fundamental limitations in compositional tasks, revealing an inherent gap between SSMs and streaming models. Then, we examine the role of chain-of-thought (CoT), showing that offline CoT does not fundamentally increase the expressiveness, while online CoT can substantially increase its power. Indeed, with online CoT, multi-layer SSMs become equivalent in power to streaming algorithms. Finally, we investigate the tradeoff between width and precision, showing that these resources are not interchangeable in the base model, but admit a clean equivalence once online CoT is allowed. Overall, our results offer a unified perspective on how depth, finite precision, and CoT shape the power and limits of SSMs.
- Abstract(参考訳): 本研究では,多層状態空間モデル(SSM)の表現力と限界について検討する。
まず,多層SSMが構成課題の基本的な制限に直面していることを示し,SSMとストリーミングモデルの間に固有のギャップがあることを明らかにする。
次に,オフラインCoTが表現力を大幅に向上させるのに対して,オフラインCoTは表現力を大幅に向上させることができないことを示す。
実際、オンラインCoTでは、マルチレイヤのSSMがストリーミングアルゴリズムと同等になる。
最後に、幅と精度のトレードオフを調査し、これらの資源がベースモデルでは交換できないが、オンラインCoTが許可されれば、クリーンな等価性を認めることを示す。
全体として、我々の結果は、深さ、有限精度、およびCoTがSSMのパワーと限界をどのように形成するかについて統一的な視点を提供する。
関連論文リスト
- Energy-Regularized Spatial Masking: A Novel Approach to Enhancing Robustness and Interpretability in Vision Models [3.609252563305193]
深部畳み込みニューラルネットワークは、密集した空間特徴写像を徹底的に処理することで、顕著な性能を達成する。
このブルートフォース戦略は、大きな計算冗長性を導入し、急激な背景相関に依存している。
本稿では,エネルギーの最小化問題として特徴選択を再構成する新しいフレームワークであるEnergy-Regularized Space Masking (ERSM)を提案する。
論文 参考訳(メタデータ) (2026-04-08T09:48:31Z) - Brain-Inspired Multimodal Spiking Neural Network for Image-Text Retrieval [79.04396446873932]
スパイキングニューラルネットワーク(SNN)は、最近、視覚的タスクとテキストタスクに強い可能性を示している。
画像テキスト検索(ITR)のようなマルチモーダルアプリケーションのための直接訓練され、低エネルギーで高性能なSNNを構築することは、依然として非常に困難である。
我々は脳にインスパイアされたクロスモーダルスパイク・フュージョン・ネットワーク(CMSF)を提案し、初めてITRに適用した。
論文 参考訳(メタデータ) (2026-03-25T08:41:07Z) - Rethinking Multi-Agent Intelligence Through the Lens of Small-World Networks [14.233668486426795]
大規模言語モデル(LLM)は、複雑なタスクを解決するために複数のエージェントが主張し、批判し、調整するマルチエージェントシステム(MAS)を可能にした。
既存の LLM ベースの MAS は、完全な連結グラフ、単純なスパース環、あるいはアドホックな動的選択をほとんど構造的なガイダンスなしで採用している。
まず、神経科学と複雑なネットワークからMASへの洞察をブリッジし、SW構造がどのように局所的なクラスタリングと長距離統合のバランスをとるかを強調します。
実験の結果,SW接続の精度とトークンコストはほぼ同じであり,コンセンサストラジェクトリは実質的に安定していることがわかった。
論文 参考訳(メタデータ) (2025-12-19T22:05:43Z) - Beyond Surface Reasoning: Unveiling the True Long Chain-of-Thought Capacity of Diffusion Large Language Models [54.81955614221652]
同時トークン更新を可能にする並列デコード。厳格な推論にしばしば必要とされる因果順序と競合する。
単純な推論タスクと複雑な推論タスクの両方において、DLLMは直接決定可能な出力に対してのみ真の並列性を示すことを示す。
そこで本研究では,PSCによる非効率性と非効率性を低減するために,いくつかの実用的な緩和,並列指向プロンプト,拡散早期停止,並列スケーリングを提案する。
論文 参考訳(メタデータ) (2025-10-10T16:58:14Z) - Multiscale Tensor Summation Factorization as a New Neural Network Layer (MTS Layer) for Multidimensional Data Processing [18.557169937152967]
Multiscale Summation (MTS) Factorizationは、テンソル和を複数スケールで実装した新しいニューラルネットワーク演算子である。
MTSは、重量最適化の効率を高めながら必要となるパラメータ数を減少させるだけでなく、畳み込み層よりも明確な利点を示す。
対応するニューラルネットワークであるMTSNetは、さまざまなコンピュータビジョンアプリケーションにおける最先端のトランスフォーマーと比較して、より好ましい複雑性とパフォーマンスのトレードオフを示す。
論文 参考訳(メタデータ) (2025-04-17T22:19:59Z) - Understanding and Mitigating Bottlenecks of State Space Models through the Lens of Recency and Over-smoothing [56.66469232740998]
構造化状態空間モデル (Structured State Space Models, SSMs) は, 強い相対バイアスによって本質的に制限されていることを示す。
このバイアスにより、モデルが遠方の情報を思い出す能力が損なわれ、堅牢性の問題がもたらされる。
本研究では, 状態遷移行列の2つのチャネルをSSMで分極し, それぞれ0と1に設定し, 電流バイアスと過平滑化に同時に対処することを提案する。
論文 参考訳(メタデータ) (2024-12-31T22:06:39Z) - State Space Models are Provably Comparable to Transformers in Dynamic Token Selection [41.617269918948686]
状態空間モデル(SSM)に基づくディープニューラルネットワークは、シーケンスモデリングにおいて大きな注目を集めている。
SSMは入力に応じて重要なトークンを抽出する際にトランスフォーマーに匹敵することを示す。
論文 参考訳(メタデータ) (2024-05-29T12:23:48Z) - MFPNet: Multi-scale Feature Propagation Network For Lightweight Semantic
Segmentation [5.58363644107113]
マルチスケール特徴伝達ネットワーク(Net)と呼ばれる,新しい軽量セグメンテーションアーキテクチャを提案する。
フレキシブル・ボトルネック・残差モジュール(BRM)からなる対称残差ブロックを有するロバスト・デコーダ構造を設計する。
遅延長範囲のコンテキスト関係をモデル化する能力の利点を生かして、グラフ畳み込みネットワーク(GCN)を活用し、BRMブロック間のマルチスケールフィーチャの伝搬を容易にする。
論文 参考訳(メタデータ) (2023-09-10T02:02:29Z) - Large AI Model Empowered Multimodal Semantic Communications [48.73159237649128]
本稿では,Large AI Model-based Multimodal SC (LAMMSC) フレームワークを提案する。
まず、条件付きマルチモーダルアライメント(MMA)を提案し、マルチモーダルデータと非モーダルデータ間の変換を可能にする。
次に、パーソナライズされたLLMベースの知識ベース(LKB)を提案し、ユーザがパーソナライズされたセマンティック抽出やリカバリを行うことができる。
最後に,CGE(Generative Adversarial Network-based Channel Estimation)を用いて,無線チャネルの状態情報を推定する。
論文 参考訳(メタデータ) (2023-09-03T19:24:34Z) - Understanding Deep Neural Networks via Linear Separability of Hidden
Layers [68.23950220548417]
まず,ミンコフスキー差分に基づく線形分離性尺度(MD-LSMs)を提案し,2点集合の線形分離性度を評価する。
隠れ層出力の線形分離度とネットワークトレーニング性能との間には同期性があることを実証する。
論文 参考訳(メタデータ) (2023-07-26T05:29:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。