論文の概要: Controllability Analysis of State Space-based Language Model
- arxiv url: http://arxiv.org/abs/2511.17970v1
- Date: Sat, 22 Nov 2025 08:13:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.55612
- Title: Controllability Analysis of State Space-based Language Model
- Title(参考訳): 状態空間に基づく言語モデルの可制御性解析
- Authors: Mohamed Mabrok, Yalda Zafari,
- Abstract要約: 本研究では,Mambaの状態空間パラメータから導かれる可制御性に基づく尺度であるEmpfect Scoreを導入,検証する。
Influence Scoreは、SSMベースの言語モデルを解釈し比較するための実用的な診断ツールである。
- 参考スコア(独自算出の注目度): 0.21485350418225244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-space models (SSMs), particularly Mamba, have become powerful architectures for sequence modeling, yet their internal dynamics remain poorly understood compared to attention-based models. We introduce and validate the Influence Score, a controllability-based metric derived from the discretized state-space parameters of Mamba and computed through a backward recurrence analogous to system observability. The score quantifies how strongly a token at position k affects all later states and outputs. We evaluate this measure across three Mamba variants: mamba-130m, mamba-2.8b, and mamba-2.8b-slimpj, using six experiments that test its sensitivity to temperature, prompt complexity, token type, layer depth, token position, and input perturbations. The results show three main insights: (1) the Influence Score increases with model size and training data, reflecting model capacity; (2) Mamba exhibits consistent architectural patterns, including recency bias and concentrated influence in mid-to-late layers; and (3) emergent behaviors appear only at scale, with mamba-2.8b-slimpj uniquely prioritizing content words and reducing internal influence in the presence of noise. These findings establish the Influence Score as a practical diagnostic tool for interpreting and comparing SSM-based language models.
- Abstract(参考訳): 状態空間モデル(SSM)、特にマンバ(Mamba)は、シーケンスモデリングの強力なアーキテクチャとなっているが、それらの内部ダイナミクスは注意に基づくモデルに比べて理解しにくいままである。
本研究では,Mambaの離散化状態空間パラメータから導かれる可制御性に基づく測定値であるEmpfect Scoreを導入,検証する。
スコアは、位置 k におけるトークンが後の状態や出力にどれほど強く影響するかを定量化する。
Mamba-130m, mamba-2.8b, mamba-2.8b-slimpjの3つの変種にまたがって, 温度に対する感度, 複雑さ, トークンタイプ, 層深さ, トークン位置, 入力摂動の6つの実験を行った。
その結果,(1)モデルサイズとトレーニングデータ,(2)モデルキャパシティの反映による影響の増大,(2)Mambaは傾向バイアスや中~後期層への集中的影響などの一貫したアーキテクチャパターンを示し,(3)Mamba-2.8b-slimpjはコンテンツワードをユニークに優先順位付けし,ノイズの存在下での内的影響を低減した。
これらの結果から,SSMに基づく言語モデルの解釈と比較を行うための実用的な診断ツールとして,インフルエンススコアが確立された。
関連論文リスト
- ARISE: An Adaptive Resolution-Aware Metric for Test-Time Scaling Evaluation in Large Reasoning Models [102.4511331368587]
ARISE(Adaptive Resolution-Aware Scaling Evaluation)は、大規模推論モデルの試験時間スケーリングの有効性を評価するために設計された新しい尺度である。
我々は、様々な領域にわたる最先端の推論モデルを評価する包括的な実験を行う。
論文 参考訳(メタデータ) (2025-10-07T15:10:51Z) - Mamba-Driven Topology Fusion for Monocular 3D Human Pose Estimation [41.14182025718559]
本研究では,マンバ駆動トポロジフュージョンによる3次元ポーズ推定手法を提案する。
具体的には,提案した骨認識モジュールは球面座標系における骨ベクトルの方向と長さを推定する。
また、シーケンス内の時間的関係と空間的関係の両方をモデル化する時空間リファインメントモジュールを設計する。
論文 参考訳(メタデータ) (2025-05-27T01:21:57Z) - Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。
本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文 参考訳(メタデータ) (2024-12-21T13:43:51Z) - Demystifying the Token Dynamics of Deep Selective State Space Models [3.829322478948515]
SSM(Selective State Space Model)は、シーケンシャルなデータモデリングの有効性で有名になった。
その卓越した経験的性能にもかかわらず、深い選択性SSMに関する包括的な理論的理解はいまだ解明されていない。
本稿では,事前学習したマンバモデルにおけるトークンの動的特性について検討する。
論文 参考訳(メタデータ) (2024-10-04T10:06:17Z) - Quantifying Semantic Emergence in Language Models [31.608080868988825]
大規模言語モデル (LLM) は意味論的意味を捉える特別な能力として広く認識されている。
本研究では,入力トークンから意味を抽出するLLMの能力を測定するために,量的指標である情報創発(IE)を導入する。
論文 参考訳(メタデータ) (2024-05-21T09:12:20Z) - An Investigation of Incorporating Mamba for Speech Enhancement [64.59903328820624]
本研究の目的は、最近提案された、注意のないスケーラブルな状態空間モデル(SSM)であるMambaを用いて、音声強調(SE)タスクを実現することである。
私たちはMambaを使って,基本,先進,因果,非因果といった,さまざまな構成のレグレッションベースのSEモデル(SEMamba)をデプロイしています。
SEMambaはVoiceBank-DEMANDデータセットで3.55のPESQを獲得し、高度な非因果構成を持つ。
論文 参考訳(メタデータ) (2024-05-10T16:18:49Z) - RobustMQ: Benchmarking Robustness of Quantized Models [54.15661421492865]
量子化は、限られたリソースを持つデバイスにディープニューラルネットワーク(DNN)をデプロイする上で不可欠なテクニックである。
我々は、ImageNet上の様々なノイズ(障害攻撃、自然破壊、系統的なノイズ)に対する量子化モデルのロバスト性について、徹底的に評価した。
我々の研究は、モデルとその実世界のシナリオにおける展開の堅牢な定量化を推し進めることに貢献している。
論文 参考訳(メタデータ) (2023-08-04T14:37:12Z) - From Sound Representation to Model Robustness [82.21746840893658]
本研究では, 環境音の標準的な表現(スペクトログラム)が, 被害者の残差畳み込みニューラルネットワークの認識性能と対角攻撃性に与える影響について検討する。
3つの環境音響データセットの様々な実験から、ResNet-18モデルは、他のディープラーニングアーキテクチャよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-27T17:30:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。