論文の概要: Residual Connections and the Causal Shift: Uncovering a Structural Misalignment in Transformers
- arxiv url: http://arxiv.org/abs/2602.14760v1
- Date: Mon, 16 Feb 2026 14:04:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.449756
- Title: Residual Connections and the Causal Shift: Uncovering a Structural Misalignment in Transformers
- Title(参考訳): 残差接続と因果シフト:変圧器の構造的相違を明らかにする
- Authors: Jonathan Lys, Vincent Gripon, Bastien Pasdeloup, Lukas Mauch, Fabien Cardinaux, Ghouthi Boukli Hacene,
- Abstract要約: 大規模言語モデル(LLM)は、自動回帰変換器で実装された次世代の予測で訓練される。
残余接続は現在のトークンとアクティベーションを結び付け、監督は次のトークンをターゲットとします。
固定層介入や学習可能なゲーティング機構として実装された残差減衰に基づく軽量残差経路緩和法を提案する。
- 参考スコア(独自算出の注目度): 9.617245548268437
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are trained with next-token prediction, implemented in autoregressive Transformers via causal masking for parallelism. This creates a subtle misalignment: residual connections tie activations to the current token, while supervision targets the next token, potentially propagating mismatched information if the current token is not the most informative for prediction. In this work, we empirically localize this input-output alignment shift in pretrained LLMs, using decoding trajectories over tied embedding spaces and similarity-based metrics. Our experiments reveal that the hidden token representations switch from input alignment to output alignment deep within the network. Motivated by this observation, we propose a lightweight residual-path mitigation based on residual attenuation, implemented either as a fixed-layer intervention or as a learnable gating mechanism. Experiments on multiple benchmarks show that these strategies alleviate the representation misalignment and yield improvements, providing an efficient and general architectural enhancement for autoregressive Transformers.
- Abstract(参考訳): 大規模言語モデル(LLM)は、並列性のための因果マスキングを通じて自動回帰変換器で実装される次世代の予測で訓練される。
残余接続は現在のトークンとアクティベーションを結び付け、監督は次のトークンをターゲットとします。
本研究では,既訓練LLMにおける入力出力アライメントシフトを,結合した埋め込み空間と類似度に基づくメトリクス上でのデコードトラジェクトリを用いて実験的に局所化する。
実験の結果,隠れトークン表現は入力アライメントから出力アライメントに切り換えられることがわかった。
本研究の目的は,固定層介入あるいは学習可能なゲーティング機構として実装された残差減衰に基づく軽量残差経路緩和法を提案することである。
複数のベンチマークの実験では、これらの戦略が表現のミスアライメントと収量の改善を緩和し、自動回帰変換器の効率的で汎用的なアーキテクチャ拡張を提供することが示された。
関連論文リスト
- Pooling Attention: Evaluating Pretrained Transformer Embeddings for Deception Classification [0.0]
BERT埋め込みとロジスティック回帰は、LIARデータセット分割のニューラルネットワークよりも優れている。
この研究は、注意に基づくトークンエンコーダを、正確性タスクのための堅牢でアーキテクチャ中心の基盤として位置付けている。
論文 参考訳(メタデータ) (2025-11-28T08:32:49Z) - Transformers Don't In-Context Learn Least Squares Regression [5.648229654902264]
In-context Learning (ICL) は、大規模な事前学習型トランスフォーマーの強力な能力として登場した。
我々は、トランスフォーマーが推論時に学習をどのように実装するかを研究する。
ICLの行動形成におけるプレトレーニングコーパスの役割を強調した。
論文 参考訳(メタデータ) (2025-07-13T01:09:26Z) - Enhancing Latent Computation in Transformers with Latent Tokens [48.371764897314]
補助トークンを用いた大規模言語モデルの拡張が,モデル性能向上のための有望な戦略として浮上している。
我々は遅延トークンと呼ばれる軽量な手法を導入し、これらは自然言語では解釈不能なダミートークンである。
提案した潜在トークンは、トレーニング済みのTransformerとシームレスに統合され、パラメータ効率のよい方法で訓練され、推論時に柔軟に適用できる。
論文 参考訳(メタデータ) (2025-05-19T02:35:53Z) - PseudoNeg-MAE: Self-Supervised Point Cloud Learning using Conditional Pseudo-Negative Embeddings [55.55445978692678]
PseudoNeg-MAEは、ポイントクラウドマスマスキングオートエンコーダのグローバルな特徴表現を強化する。
本研究では,ネットワークが識別的表現を保ちながら,よりリッチな変換キューをキャプチャできる新たな損失を提案する。
論文 参考訳(メタデータ) (2024-09-24T07:57:21Z) - Trained Transformers Learn Linear Models In-Context [39.56636898650966]
トランスフォーマーとしての注意に基づくニューラルネットワークは、意図的学習(ICL)を示す顕著な能力を示した
線形回帰問題のランダムな例に対する変圧器の訓練において、これらのモデルの予測は通常の正方形の非線形性を模倣することを示した。
論文 参考訳(メタデータ) (2023-06-16T15:50:03Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer Pre-Training [55.12082817901671]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはベースラインやコンペティターと同一のモデル設定で比較して,ImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z) - Addressing Some Limitations of Transformers with Feedback Memory [51.94640029417114]
トランスフォーマーは、フィードフォワードネットワークであるにもかかわらず、シーケンシャルな自動回帰タスクにうまく適用されている。
本稿では、過去のすべての表現を将来のすべての表現に公開する、フィードバックトランスフォーマーアーキテクチャを提案する。
言語モデリング、機械翻訳、強化学習の様々なベンチマークにおいて、表現能力の増大は、同等のトランスフォーマーよりもはるかに強力なパフォーマンスを持つ、小さくて浅いモデルを生成することができることを実証する。
論文 参考訳(メタデータ) (2020-02-21T16:37:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。