論文の概要: Towards Understanding What State Space Models Learn About Code
- arxiv url: http://arxiv.org/abs/2602.06774v1
- Date: Fri, 06 Feb 2026 15:29:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.445772
- Title: Towards Understanding What State Space Models Learn About Code
- Title(参考訳): 状態空間モデルがコードについて学ぶことの理解に向けて
- Authors: Jiali Wu, Abhinav Anand, Shweta Verma, Mira Mezini,
- Abstract要約: State Space Models (SSM) は、トランスフォーマーアーキテクチャの効率的な代替品として登場した。
近年の研究では、SSMは同様の条件下で訓練された場合、コード検索などのコード理解タスクにおいて、Transformerと一致したり、超えたりすることができることが示されている。
本稿では、SSMベースのコードモデルが実際に何を学習しているかを初めて体系的に分析し、SSMとTransformerベースのコードモデルの比較分析を行う。
- 参考スコア(独自算出の注目度): 5.605881212882263
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: State Space Models (SSMs) have emerged as an efficient alternative to the transformer architecture. Recent studies show that SSMs can match or surpass Transformers on code understanding tasks, such as code retrieval, when trained under similar conditions. However, their internal mechanisms remain a black box. We present the first systematic analysis of what SSM-based code models actually learn and perform the first comparative analysis of SSM and Transformer-based code models. Our analysis reveals that SSMs outperform Transformers at capturing code syntax and semantics in pretraining but forgets certain syntactic and semantic relations during fine-tuning on task, especially when the task emphasizes short-range dependencies. To diagnose this, we introduce SSM-Interpret, a frequency-domain framework that exposes a spectral shift toward short-range dependencies during fine-tuning. Guided by these findings, we propose architectural modifications that significantly improve the performance of SSM-based code model, validating that our analysis directly enables better models.
- Abstract(参考訳): State Space Models (SSM) は、トランスフォーマーアーキテクチャの効率的な代替品として登場した。
近年の研究では、SSMは同様の条件下で訓練された場合、コード検索などのコード理解タスクにおいて、Transformerと一致したり、超えたりすることができることが示されている。
しかし、内部の機構はブラックボックスのままである。
本稿では、SSMベースのコードモデルが実際に何を学習しているかを初めて体系的に分析し、SSMとTransformerベースのコードモデルの比較分析を行う。
分析の結果,SSMは,タスクの微調整時に,特にタスクが短距離依存を重視している場合に,構文や意味的関係を忘れることなく,コード構文やセマンティクスをキャプチャする上で,トランスフォーマよりも優れていたことが明らかとなった。
そこで本研究では,周波数領域のフレームワークであるSSM-Interpretを紹介する。
これらの知見に導かれ、我々はSSMベースのコードモデルの性能を大幅に向上させるアーキテクチャ修正を提案し、我々の分析がより優れたモデルを直接実現できることを検証した。
関連論文リスト
- A Comparative Analysis of Contextual Representation Flow in State-Space and Transformer Architectures [27.45316137669387]
状態空間モデル(SSM)は、長いシーケンス処理のためにTransformer-Based Models(TBM)の効率的な代替品として登場した。
本稿では,SSM と TBM における表現伝搬の統一・トークン・層レベルでの初めての解析について述べる。
TBMはトークン表現を急速に均質化し、多様性は後層のみに再燃し、SSMはトークンの特異性を早期に保存するが、より深い均質化に収束する。
論文 参考訳(メタデータ) (2025-10-08T04:46:11Z) - Message-Passing State-Space Models: Improving Graph Learning with Modern Sequence Modeling [19.10832920407789]
我々は、メッセージパッシングニューラルネットワークフレームワークに直接、現代のSSMの鍵となる原則を組み込むことによって、新しい視点を導入する。
我々は,MP-SSMを用いて,メッセージパッシングのアーキテクチャ的単純さを保ちながら,効率よく,順列同変かつ長距離情報伝達を可能にする。
論文 参考訳(メタデータ) (2025-05-24T14:53:07Z) - Deep Learning-based Approaches for State Space Models: A Selective Review [15.295157876811066]
状態空間モデル(SSM)は動的システム解析のための強力なフレームワークを提供する。
本稿では、SSMに対するディープニューラルネットワークに基づくアプローチの最近の進歩を選択的にレビューする。
論文 参考訳(メタデータ) (2024-12-15T15:04:35Z) - Longhorn: State Space Models are Amortized Online Learners [51.10124201221601]
ステートスペースモデル(SSM)は、トレーニング中に並列性を維持しながら線形デコード効率を提供する。
本研究では、オンライン学習のレンズを通してSSM設計を探求し、特定のオンライン学習問題のメタモジュールとしてSSMを概念化する。
我々は、オンライン連想的リコール問題を解決するためのクローズドフォームソリューションに類似した、新しいディープSSMアーキテクチャであるLonghornを紹介した。
論文 参考訳(メタデータ) (2024-07-19T11:12:08Z) - The Expressive Capacity of State Space Models: A Formal Language Perspective [0.8948475969696075]
線形状態空間モデル(SSM)に基づくリカレントモデルは、言語モデリング(LM)において有望な性能を示した。
本稿では,変換器や従来のRNNと比較して,そのようなSSMの容量に関する包括的理論的研究を行う。
論文 参考訳(メタデータ) (2024-05-27T17:46:57Z) - HOPE for a Robust Parameterization of Long-memory State Space Models [51.66430224089725]
線形時間不変(LTI)システムを利用する状態空間モデル(SSM)は、長いシーケンスの学習において有効であることが知られている。
我々は,ハンケル作用素内のマルコフパラメータを利用するLTIシステムに対して,HOPEと呼ばれる新しいパラメータ化手法を開発した。
我々の新しいパラメータ化は、固定時間ウィンドウ内に非遅延メモリを付与し、パッドドノイズのあるシーケンシャルCIFAR-10タスクによって実証的に相関する。
論文 参考訳(メタデータ) (2024-05-22T20:20:14Z) - State Space Model for New-Generation Network Alternative to Transformers: A Survey [52.812260379420394]
深層学習時代において、Transformerアーキテクチャは、トレーニング済みのビッグモデルとさまざまなダウンストリームタスクにまたがる強力なパフォーマンスを示してきた。
注意モデルの複雑さをさらに軽減するために、より効率的な手法を設計するための多くの努力がなされている。
その中でも、自己注意に基づくトランスフォーマーモデルの代替として、ステートスペースモデル(SSM)が近年ますます注目を集めている。
論文 参考訳(メタデータ) (2024-04-15T07:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。