Fugu-MT 論文翻訳(概要): Towards Understanding What State Space Models Learn About Code

論文の概要: Towards Understanding What State Space Models Learn About Code

arxiv url: http://arxiv.org/abs/2602.06774v1
Date: Fri, 06 Feb 2026 15:29:46 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-09 22:18:26.445772
Title: Towards Understanding What State Space Models Learn About Code
Title（参考訳）: 状態空間モデルがコードについて学ぶことの理解に向けて
Authors: Jiali Wu, Abhinav Anand, Shweta Verma, Mira Mezini,
Abstract要約: State Space Models (SSM) は、トランスフォーマーアーキテクチャの効率的な代替品として登場した。近年の研究では、SSMは同様の条件下で訓練された場合、コード検索などのコード理解タスクにおいて、Transformerと一致したり、超えたりすることができることが示されている。本稿では、SSMベースのコードモデルが実際に何を学習しているかを初めて体系的に分析し、SSMとTransformerベースのコードモデルの比較分析を行う。
参考スコア（独自算出の注目度）: 5.605881212882263
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: State Space Models (SSMs) have emerged as an efficient alternative to the transformer architecture. Recent studies show that SSMs can match or surpass Transformers on code understanding tasks, such as code retrieval, when trained under similar conditions. However, their internal mechanisms remain a black box. We present the first systematic analysis of what SSM-based code models actually learn and perform the first comparative analysis of SSM and Transformer-based code models. Our analysis reveals that SSMs outperform Transformers at capturing code syntax and semantics in pretraining but forgets certain syntactic and semantic relations during fine-tuning on task, especially when the task emphasizes short-range dependencies. To diagnose this, we introduce SSM-Interpret, a frequency-domain framework that exposes a spectral shift toward short-range dependencies during fine-tuning. Guided by these findings, we propose architectural modifications that significantly improve the performance of SSM-based code model, validating that our analysis directly enables better models.
Abstract（参考訳）: State Space Models (SSM) は、トランスフォーマーアーキテクチャの効率的な代替品として登場した。近年の研究では、SSMは同様の条件下で訓練された場合、コード検索などのコード理解タスクにおいて、Transformerと一致したり、超えたりすることができることが示されている。しかし、内部の機構はブラックボックスのままである。本稿では、SSMベースのコードモデルが実際に何を学習しているかを初めて体系的に分析し、SSMとTransformerベースのコードモデルの比較分析を行う。分析の結果,SSMは,タスクの微調整時に,特にタスクが短距離依存を重視している場合に,構文や意味的関係を忘れることなく,コード構文やセマンティクスをキャプチャする上で,トランスフォーマよりも優れていたことが明らかとなった。そこで本研究では,周波数領域のフレームワークであるSSM-Interpretを紹介する。これらの知見に導かれ、我々はSSMベースのコードモデルの性能を大幅に向上させるアーキテクチャ修正を提案し、我々の分析がより優れたモデルを直接実現できることを検証した。

関連論文リスト

X-VMamba: Explainable Vision Mamba [0.0]
State Space Models (SSM) は、シーケンスモデリングのためのTransformerの強力な代替品として登場した。本稿では,入力シーケンスの異なる部分(トークンやパッチ)がSSMの内部状態にどのように影響するかを定量化する,可制御性に基づく解釈可能性フレームワークを提案する。我々のフレームワークは、すべてのドメインにわたるSSMの統一的で基礎的な解釈可能性パラダイムとして、制御可能性分析を確立します。
論文参考訳（メタデータ） (2025-11-16T17:18:12Z)
A Comparative Analysis of Contextual Representation Flow in State-Space and Transformer Architectures [27.45316137669387]
状態空間モデル(SSM)は、長いシーケンス処理のためにTransformer-Based Models(TBM)の効率的な代替品として登場した。本稿では,SSM と TBM における表現伝搬の統一・トークン・層レベルでの初めての解析について述べる。 TBMはトークン表現を急速に均質化し、多様性は後層のみに再燃し、SSMはトークンの特異性を早期に保存するが、より深い均質化に収束する。
論文参考訳（メタデータ） (2025-10-08T04:46:11Z)
Message-Passing State-Space Models: Improving Graph Learning with Modern Sequence Modeling [19.10832920407789]
我々は、メッセージパッシングニューラルネットワークフレームワークに直接、現代のSSMの鍵となる原則を組み込むことによって、新しい視点を導入する。我々は,MP-SSMを用いて,メッセージパッシングのアーキテクチャ的単純さを保ちながら,効率よく,順列同変かつ長距離情報伝達を可能にする。
論文参考訳（メタデータ） (2025-05-24T14:53:07Z)
On the locality bias and results in the Long Range Arena [49.15148871877941]
Long Range ArenaベンチマークはTransformerの改良性能を評価するために設計された。ステート・スペース・モデル(SSM)のような新しいアーキテクチャは、LRAのトランスフォーマーよりも優れていた。 LRAは長距離依存モデリングのベンチマークであるが、実際にはほとんどのパフォーマンスは短距離依存によるものである。
論文参考訳（メタデータ） (2025-01-24T15:34:50Z)
On the Expressiveness and Length Generalization of Selective State-Space Models on Regular Languages [56.22289522687125]
SSM(Selective State-space Model)はTransformerの代替品である。正規言語タスクにおける表現性や長さの一般化性能を解析する。本稿では,Selective Dense State-Space Model (SD-SSM)を紹介する。
論文参考訳（メタデータ） (2024-12-26T20:53:04Z)
Deep Learning-based Approaches for State Space Models: A Selective Review [15.295157876811066]
状態空間モデル(SSM)は動的システム解析のための強力なフレームワークを提供する。本稿では、SSMに対するディープニューラルネットワークに基づくアプローチの最近の進歩を選択的にレビューする。
論文参考訳（メタデータ） (2024-12-15T15:04:35Z)
Provable Benefits of Complex Parameterizations for Structured State Space Models [51.90574950170374]
構造化状態空間モデル (Structured State Space Model, SSM) は、指定された構造に固執する線形力学系である。パラメータ化が現実の典型的なニューラルネットワークモジュールとは対照的に、SSMは複雑なパラメータ化を使用することが多い。本稿では,実対角 SSM と複素対角 SSM の形式的ギャップを確立することにより,SSM の複雑なパラメータ化の利点を説明する。
論文参考訳（メタデータ） (2024-10-17T22:35:50Z)
Longhorn: State Space Models are Amortized Online Learners [51.10124201221601]
ステートスペースモデル(SSM)は、トレーニング中に並列性を維持しながら線形デコード効率を提供する。本研究では、オンライン学習のレンズを通してSSM設計を探求し、特定のオンライン学習問題のメタモジュールとしてSSMを概念化する。我々は、オンライン連想的リコール問題を解決するためのクローズドフォームソリューションに類似した、新しいディープSSMアーキテクチャであるLonghornを紹介した。
論文参考訳（メタデータ） (2024-07-19T11:12:08Z)
The Expressive Capacity of State Space Models: A Formal Language Perspective [0.8948475969696075]
線形状態空間モデル(SSM)に基づくリカレントモデルは、言語モデリング(LM)において有望な性能を示した。本稿では,変換器や従来のRNNと比較して,そのようなSSMの容量に関する包括的理論的研究を行う。
論文参考訳（メタデータ） (2024-05-27T17:46:57Z)
HOPE for a Robust Parameterization of Long-memory State Space Models [51.66430224089725]
線形時間不変(LTI)システムを利用する状態空間モデル(SSM)は、長いシーケンスの学習において有効であることが知られている。我々は,ハンケル作用素内のマルコフパラメータを利用するLTIシステムに対して,HOPEと呼ばれる新しいパラメータ化手法を開発した。我々の新しいパラメータ化は、固定時間ウィンドウ内に非遅延メモリを付与し、パッドドノイズのあるシーケンシャルCIFAR-10タスクによって実証的に相関する。
論文参考訳（メタデータ） (2024-05-22T20:20:14Z)
State Space Model for New-Generation Network Alternative to Transformers: A Survey [52.812260379420394]
深層学習時代において、Transformerアーキテクチャは、トレーニング済みのビッグモデルとさまざまなダウンストリームタスクにまたがる強力なパフォーマンスを示してきた。注意モデルの複雑さをさらに軽減するために、より効率的な手法を設計するための多くの努力がなされている。その中でも、自己注意に基づくトランスフォーマーモデルの代替として、ステートスペースモデル(SSM)が近年ますます注目を集めている。
論文参考訳（メタデータ） (2024-04-15T07:24:45Z)
Guiding the PLMs with Semantic Anchors as Intermediate Supervision: Towards Interpretable Semantic Parsing [57.11806632758607]
本稿では,既存の事前学習言語モデルを階層型デコーダネットワークに組み込むことを提案する。第一原理構造をセマンティックアンカーとすることで、2つの新しい中間管理タスクを提案する。いくつかのセマンティック解析ベンチマークで集中的な実験を行い、我々のアプローチがベースラインを一貫して上回ることを示す。
論文参考訳（メタデータ） (2022-10-04T07:27:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。