論文の概要: When recalling in-context, Transformers are not SSMs
- arxiv url: http://arxiv.org/abs/2508.19029v1
- Date: Tue, 26 Aug 2025 13:45:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.864964
- Title: When recalling in-context, Transformers are not SSMs
- Title(参考訳): コンテキスト内でリコールする場合、TransformerはSSMではない
- Authors: Destiny Okpekpe, Antonio Orvieto,
- Abstract要約: 本稿では,現代の反復モデルの性能において,学習率の選択が重要な役割を担っていることを示す。
次に1層変圧器を検査し、その性能が劣っているにもかかわらず、トレーニングダイナミクスが驚くほど誘導ヘッドの形成に類似していることを明らかにする。
- 参考スコア(独自算出の注目度): 17.2249234816671
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the advantageous subquadratic complexity of modern recurrent deep learning models -- such as state-space models (SSMs) -- recent studies have highlighted their potential shortcomings compared to transformers on reasoning and memorization tasks. In this paper, we dive deeper into one of such benchmarks: associative recall (AR), which has been shown to correlate well with language modeling performance, and inspect in detail the effects of scaling and optimization issues in recently proposed token mixing strategies. We first demonstrate that, unlike standard transformers, the choice of learning rate plays a critical role in the performance of modern recurrent models: an issue that can severely affect reported performance in previous works and suggests further research is needed to stabilize training. Next, we show that recurrent and attention-based models exhibit contrasting benefits when scaling in width as opposed to depth, with attention being notably unable to solve AR when limited to a single layer. We then further inspect 1-layer transformers, revealing that despite their poor performance, their training dynamics surprisingly resemble the formation of induction heads, a phenomenon previously observed only in their 2-layer counterparts. Finally, through architectural ablations, we study how components affects Transformer and Mamba's performance and optimization stability.
- Abstract(参考訳): 状態空間モデル(SSM)のような現代の再帰的なディープラーニングモデルのアドバンテージなサブクワッドラティックな複雑さにもかかわらず、最近の研究は、推論や記憶タスクにおけるトランスフォーマーと比較して潜在的な欠点を強調している。
本稿では,近年提案されているトークン混合戦略におけるスケーリングと最適化の問題の影響を詳細に検討し,言語モデリング性能とよく相関していることを示すアソシアティブリコール(AR)について検討する。
まず、従来の変圧器とは異なり、現代の反復モデルの性能において学習率の選択が重要な役割を担っていることを実証した: 以前の研究で報告された性能に深刻な影響を及ぼす問題であり、トレーニングを安定化させるためにはさらなる研究が必要であることを示唆する。
次に,繰り返しおよび注意に基づくモデルでは,1層に制限された場合,注意が特にARを解くことができないため,奥行きに対して幅を拡大する際の利点が対照的であることを示す。
さらに1層変圧器を検査したところ、その性能は劣っているものの、トレーニングのダイナミクスは2層変圧器でしか観測されなかった誘導ヘッドの形成に驚くほど似ていることがわかった。
最後に, コンポーネントが Transformer と Mamba のパフォーマンスと最適化の安定性に与える影響について検討する。
関連論文リスト
- The emergence of sparse attention: impact of data distribution and benefits of repetition [14.652502263025882]
本研究では,トランスフォーマーにおける重要かつ頻繁な注意パターンであるスパースアテンションのトレーニングに伴う出現について検討した。
玩具モデルの理論的解析と線形回帰変種を訓練した小型変圧器の経験的観察を組み合わせることで,機械的スパークアテンションの出現を明らかにする。
我々の研究は、データ分布とモデル設計が1つの形態の台頭の背後にある学習力学にどのように影響するかを理解するための、シンプルで理論的に基礎的なフレームワークを提供する。
論文 参考訳(メタデータ) (2025-05-23T13:14:02Z) - Transformer Meets Twicing: Harnessing Unattended Residual Information [2.1605931466490795]
トランスフォーマーベースのディープラーニングモデルは、多くの言語やビジョンタスクで最先端のパフォーマンスを達成した。
自己注意機構は複雑なデータパターンを扱えることが証明されているが、注意行列の表現能力はトランスフォーマー層間で著しく低下する。
本研究では,NLM平滑化の低パス動作を軽減するため,非パラメトリック回帰におけるカーネルツイシング手順を用いた新しいアテンション機構であるTwicing Attentionを提案する。
論文 参考訳(メタデータ) (2025-03-02T01:56:35Z) - On the locality bias and results in the Long Range Arena [49.15148871877941]
Long Range ArenaベンチマークはTransformerの改良性能を評価するために設計された。
ステート・スペース・モデル(SSM)のような新しいアーキテクチャは、LRAのトランスフォーマーよりも優れていた。
LRAは長距離依存モデリングのベンチマークであるが、実際にはほとんどのパフォーマンスは短距離依存によるものである。
論文 参考訳(メタデータ) (2025-01-24T15:34:50Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Small-scale proxies for large-scale Transformer training instabilities [69.36381318171338]
我々は、小規模でトレーニングの安定性と不安定性を再現し、研究する方法を模索する。
学習速度とスケールによる損失の関係を計測することにより,これらの不安定性は,学習率の高いトレーニングにおいて,小さなモデルにも現れることを示す。
ウォームアップ,ウェイト崩壊,および$mu$Paramなどの手法を用いて,学習速度変化の桁数で同様の損失を被る小さなモデルを訓練する。
論文 参考訳(メタデータ) (2023-09-25T17:48:51Z) - Demystify Transformers & Convolutions in Modern Image Deep Networks [80.16624587948368]
本稿では,一般のコンボリューションとアテンション演算子の真の利益を,詳細な研究により同定することを目的とする。
注意や畳み込みのようなこれらの特徴変換モジュールの主な違いは、それらの空間的特徴集約アプローチにある。
様々なSTMが統合されたフレームワークに統合され、包括的な比較分析を行う。
論文 参考訳(メタデータ) (2022-11-10T18:59:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。