論文の概要: Revisiting Anisotropy in Language Transformers: The Geometry of Learning Dynamics
- arxiv url: http://arxiv.org/abs/2604.08764v1
- Date: Thu, 09 Apr 2026 21:02:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.58287
- Title: Revisiting Anisotropy in Language Transformers: The Geometry of Learning Dynamics
- Title(参考訳): 言語変換器における異方性の再検討:学習ダイナミクスの幾何学
- Authors: Raphael Bernas, Fanny Jourdan, Antonin Poché, Céline Hudelot,
- Abstract要約: トランスフォーマーアーキテクチャは自然言語処理(NLP)を支配してきた
最近の研究では、これらのモデルに固有の異方性現象が強調されている。
我々は,運動誘発低ランクタンジェントプロキシに適合するために,ポストホックではなく,トレーニング中に概念に基づく機械的解釈性を利用する。
これらの活性化誘導方向は、異常に大きな勾配エネルギーと、一致するランクの通常の制御よりもかなり大きな勾配異方性の両方を捕捉する。
- 参考スコア(独自算出の注目度): 5.987889368693271
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Since their introduction, Transformer architectures have dominated Natural Language Processing (NLP). However, recent research has highlighted an inherent anisotropy phenomenon in these models, presenting a significant challenge to their geometric interpretation. Previous theoretical studies on this phenomenon are rarely grounded in the underlying representation geometry. In this paper, we extend them by deriving geometric arguments for how frequency-biased sampling attenuates curvature visibility and why training preferentially amplify tangent directions. Empirically, we then use concept-based mechanistic interpretability during training, rather than only post hoc, to fit activation-derived low-rank tangent proxies and test them against ordinary backpropagated true gradients. Across encoder-style and decoder-style language models, we find that these activation-derived directions capture both unusually large gradient energy and a substantially larger share of gradient anisotropy than matched-rank normal controls, providing strong empirical support for a tangent-aligned account of anisotropy.
- Abstract(参考訳): 導入以来、Transformerアーキテクチャは自然言語処理(NLP)を支配してきた。
しかし、最近の研究ではこれらのモデルに固有の異方性現象が強調され、幾何学的解釈に重要な課題が提示されている。
この現象に関するこれまでの理論的研究は、基礎となる表現幾何学にはほとんど根ざしていない。
本稿では、周波数バイアスサンプリングが曲率の可視性を弱め、なぜトレーニングがタンジェント方向を優先的に増幅するかという幾何学的議論を導出することにより拡張する。
経験的に、私たちは、ポストホックではなく、トレーニング中に概念に基づく機械的解釈性を使用して、活性化に由来する低ランクな接尾辞を適合させ、通常のバックプロパゲートな真の勾配に対してテストします。
エンコーダ型およびデコーダ型言語モデル全体で、これらの活性化誘導方向は、一致したランクの正規制御よりも、異常に大きな勾配エネルギーとかなり大きな勾配異方性の両方を捕捉し、タンジェント対応の異方性を考慮した強力な実証的支援を提供する。
関連論文リスト
- The Inductive Bias of Convolutional Neural Networks: Locality and Weight Sharing Reshape Implicit Regularization [57.37943479039033]
本研究では,勾配降下における安定性現象によって引き起こされる暗黙の正則化に,アーキテクチャ的帰納バイアスがどう影響するかを考察する。
局所性と重量共有が根本的に変化していることが示されています。
論文 参考訳(メタデータ) (2026-03-05T04:50:51Z) - Truth as a Trajectory: What Internal Representations Reveal About Large Language Model Reasoning [19.48395840455837]
大規模言語モデルのためのトラジェクトリ(TaT)としてTrathを導入する。
TaTは静的なアクティベーションから層幅の幾何変位への解析をシフトする。
本稿では,TaTが静的な語彙の共役に依存することを効果的に軽減し,従来の探索よりも優れていることを示す。
論文 参考訳(メタデータ) (2026-03-01T23:52:10Z) - Scale-Consistent State-Space Dynamics via Fractal of Stationary Transformations [9.983526161001997]
最近のディープラーニングモデルは、中間表現の妥当性に関する構造的な保証なしに、ますます深度に依存している。
我々は、状態空間モデルのスケール一貫性潜在力学の構造的要件を定式化することにより、この制限に対処する。
我々は予測されたスケール一貫性の挙動を実証的に検証し、適応効率がアライメントされた潜在幾何学から現れることを示す。
論文 参考訳(メタデータ) (2026-01-27T12:44:20Z) - Tracing the Representation Geometry of Language Models from Pretraining to Post-training [22.18942718274405]
本研究では,事前学習と後学習にまたがる学習表現の幾何学をスペクトル的に検討する。
自己回帰事前学習中に3つの幾何位相の一貫した非単調列が発見された。
SFTとDPOは、特定の命令データや優先データを統合するために「エントロピー探索」ダイナミクスを駆動します。
論文 参考訳(メタデータ) (2025-09-27T00:46:29Z) - Generative Model Inversion Through the Lens of the Manifold Hypothesis [98.37040155914595]
モデル反転攻撃(MIA)は、訓練されたモデルからクラス表現型サンプルを再構成することを目的としている。
最近の生成的MIAは、生成的敵ネットワークを使用して、反転過程を導く画像の事前学習を行う。
論文 参考訳(メタデータ) (2025-09-24T14:39:25Z) - A U-turn on Double Descent: Rethinking Parameter Counting in Statistical
Learning [68.76846801719095]
二重降下がいつどこで起こるのかを正確に示し、その位置が本質的に閾値 p=n に結び付けられていないことを示す。
これは二重降下と統計的直観の間の緊張を解消する。
論文 参考訳(メタデータ) (2023-10-29T12:05:39Z) - Towards Training Without Depth Limits: Batch Normalization Without
Gradient Explosion [83.90492831583997]
バッチ正規化ネットワークは,信号伝搬特性を最適に保ちつつ,爆発的な勾配を回避することができることを示す。
線形アクティベーションとバッチ正規化を備えた多層パーセプトロン(MLP)を用いて,有界深度を実証する。
また、ある非線形活性化に対して同じ特性を経験的に達成する活性化整形法を設計する。
論文 参考訳(メタデータ) (2023-10-03T12:35:02Z) - Curve Your Attention: Mixed-Curvature Transformers for Graph
Representation Learning [77.1421343649344]
本稿では,一定曲率空間の積を完全に操作するトランスフォーマーの一般化を提案する。
また、非ユークリッド注意に対するカーネル化されたアプローチを提供し、ノード数とエッジ数に線形に時間とメモリコストでモデルを実行できるようにします。
論文 参考訳(メタデータ) (2023-09-08T02:44:37Z) - Gradient-Based Feature Learning under Structured Data [57.76552698981579]
異方性設定では、一般的に使用される球面勾配力学は真の方向を回復できないことがある。
バッチ正規化を連想させる適切な重み正規化は、この問題を軽減することができることを示す。
特に、スパイクモデルの下では、勾配に基づくトレーニングのサンプルの複雑さは情報指数とは独立にできる。
論文 参考訳(メタデータ) (2023-09-07T16:55:50Z) - On the Bias Against Inductive Biases [34.10348216388905]
視覚タスクのための自己教師付き特徴学習は、これらの非常に深い等方性ネットワークを使用して最先端の成功を収めた。
本研究では、教師なし視覚特徴学習に用いる小型・中等度等方性ネットワークに対する誘導バイアスの効果を解析する。
論文 参考訳(メタデータ) (2021-05-28T19:41:48Z) - Coherent Gradients: An Approach to Understanding Generalization in
Gradient Descent-based Optimization [15.2292571922932]
本稿では,勾配降下のダイナミクスに関する仮説に基づいて,この問題に答えるアプローチを提案する。
トレーニング中のネットワークパラメータの変更は、(局所的に)同時に多くのサンプルに役立つものに偏っていることを示す。
論文 参考訳(メタデータ) (2020-02-25T03:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。