Fugu-MT 論文翻訳(概要): Gradient-Direction Sensitivity Reveals Linear-Centroid Coupling Hidden by Optimizer Trajectories

論文の概要: Gradient-Direction Sensitivity Reveals Linear-Centroid Coupling Hidden by Optimizer Trajectories

arxiv url: http://arxiv.org/abs/2604.25143v1
Date: Tue, 28 Apr 2026 02:44:43 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-29 16:49:17.677226
Title: Gradient-Direction Sensitivity Reveals Linear-Centroid Coupling Hidden by Optimizer Trajectories
Title（参考訳）: オプティマイザ軌道に隠れたリニア・セントロイド結合の勾配方向感度
Authors: Yongzhong Xu,
Abstract要約: 本稿では,AdamW更新の転がりSVDを転がりSVDの損失勾配に置き換えることにより,診断精度が1～2桁に変化することを示す。 SVDをAdamW更新ではなく損失勾配で実行すると、SED方向とLCH(Linear Centroid hypothesis)特徴との摂動結合が増大する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We show that replacing the rolling SVD of AdamW updates with a rolling SVD of loss gradients changes the diagnostic by 1-2 orders of magnitude. Performing SVD on the loss gradient instead of the AdamW update increases the measured perturbative coupling between SED directions and Linear Centroid Hypothesis (LCH) features from $ \bar{R}_k \approx 3 $--$9\times$ to $100$--$330\times$ across four single-task modular arithmetic operations, eliminating the apparent operation dependence in the original measurement. On a multitask transformer with a shared encoder, update-based SED gives $ \bar{R}_k \leq 1 $ -- an apparent failure of the diagnostic -- while per-operation gradient-based SED recovers $ \bar{R}_k = 20 $--$45\times$ across all four operations. Gradient aggregation across competing tasks is the main obstruction; performing SVD on per-task gradients resolves it. A causal intervention shows that constraining attention updates to any rank-3 subspace (whether SED-derived or random) accelerates grokking by approximately $2.3\times$ across random seeds and operations, while removing the rank-3 component has negligible effect under proper gradient-projection methodology. The SED-LCH coupling is therefore a strong diagnostic of where feature formation concentrates in parameter space, but it is not a unique causal pathway: the natural full-rank AdamW attention update is highly rank-redundant under our hyperparameters.
Abstract（参考訳）: 本稿では,AdamW更新の転がりSVDを転がりSVDの損失勾配に置き換えることにより,診断精度が1～2桁に変化することを示す。 AdamW の更新ではなく、損失勾配で SVD を実行すると、SED 方向と線形セントロイド仮説 (LCH) 特徴量の測定摂動結合は、$ \bar{R}_k \approx 3 $--$9\times$から$100$-$330\times$ の4つの単一タスクのモジュラー演算にまたがって行われる。共有エンコーダを備えたマルチタスクトランスフォーマーでは、更新ベースのSEDが$ \bar{R}_k \leq 1 $ -- 診断の明らかな失敗 -- を与え、操作単位の勾配ベースのSEDは、すべての4つの操作で$ \bar{R}_k = 20 $--$45\times$を回復する。競合するタスク間のグラディエントアグリゲーションが主な障害であり、タスク毎の勾配でSVDを実行することで解決される。因果的介入は、任意のランク3部分空間(SED由来かランダム由来かにかかわらず)への注意の更新が、ランダムな種と操作をまたいで約2.3\times$でグルーキングを加速し、ランク3成分を除去することは、適切な勾配射影法の下で無視できる効果を持つことを示している。したがって、SED-LCH結合はパラメータ空間に特徴形成が集中する場所の強力な診断であるが、これはユニークな因果経路ではない。

関連論文リスト

SA-CycleGAN-2.5D: Self-Attention CycleGAN with Tri-Planar Context for Multi-Site MRI Harmonization [3.5109108807229403]
本稿では,Ben-David らによる$HH$-divergence 境界によるドメイン適応フレームワーク SA-CycleGAN-2.5D を提案する。 2D効率と3D一貫性をブリッジすることで,腫瘍の病態を保ったボクセルレベルの高調波画像が得られる。
論文参考訳（メタデータ） (2026-03-17T23:49:46Z)
OrthoAI v2: From Single-Agent Segmentation to Dual-Agent Treatment Planning for Clear Aligners [0.0]
私たちは、AI支援矯正治療計画のためのオープンソースのパイプラインの2番目のイテレーションであるOrthoAI v2を紹介します。 v2は3つの主要な貢献を通じて 3つの制限に対処します 200のクラウドシナリオの合成ベンチマークで、OrthoAI v2の並列アンサンブルは、計画品質スコアが92.8 pm 4.1$対76.4 pm 8.3$に達し、OrthoAI v1は+21%$相対的ゲインとなり、完全なCPUデプロイ可能性(4.2 pm 0.8$s)を維持した。
論文参考訳（メタデータ） (2026-03-10T13:03:44Z)
GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models [6.2676602262188625]
VLAモデルは、内在的な幾何学構造を持たない2次元パッチトークンとして視覚観察を符号化する。 GST-VLAを2つのコントリビューションで紹介する。第一に、ガウス空間Tokenizer (GST) は凍った深度と凍ったセマンティックパッチの特徴を3Dプリミティブに変換する。第二に、DA-CoT推論は4つの構造化された中間空間的思考を監督する。
論文参考訳（メタデータ） (2026-03-10T01:39:38Z)
FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA [68.44043212834204]
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。 Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
論文参考訳（メタデータ） (2025-05-19T07:32:56Z)
From Continual Learning to SGD and Back: Better Rates for Continual Linear Models [50.11453013647086]
以前見られたタスクの損失を、$k$の繰り返しの後、忘れること、すなわち、分析する。実現可能な最小二乗の設定において、新しい最上界を創出する。我々は、タスクを繰り返しないランダム化だけで、十分に長いタスクシーケンスで破滅的な事態を防げることを初めて証明した。
論文参考訳（メタデータ） (2025-04-06T18:39:45Z)
Improved Algorithm for Adversarial Linear Mixture MDPs with Bandit Feedback and Unknown Transition [71.33787410075577]
線形関数近似,未知遷移,および逆損失を用いた強化学習について検討した。我々は高い確率で$widetildeO(dsqrtHS3K + sqrtHSAK)$ regretを実現する新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-03-07T15:03:50Z)
Training \beta-VAE by Aggregating a Learned Gaussian Posterior with a Decoupled Decoder [0.553073476964056]
VAEトレーニングの現在の実践は、しばしば、再構成の忠実さと、潜伏空間の連続性$/$$分散の間のトレードオフをもたらす。本稿では,2つの損失の対角的機構の直観と注意深い解析を行い,VAEを訓練するための簡易で効果的な2段階法を提案する。本手法は, 3次元頭蓋骨再建と形状完成を目的とした医療データセットを用いて評価し, 提案手法を用いてトレーニングしたVAEの有望な生成能力を示す。
論文参考訳（メタデータ） (2022-09-29T13:49:57Z)
The KFIoU Loss for Rotated Object Detection [115.334070064346]
本稿では,SkewIoU損失とトレンドレベルアライメントを両立できる近似的損失を考案する上で,有効な方法の1つとして論じる。具体的には、対象をガウス分布としてモデル化し、SkewIoUのメカニズムを本質的に模倣するためにカルマンフィルタを採用する。 KFIoUと呼ばれる新たな損失は実装が容易で、正確なSkewIoUよりもうまく動作する。
論文参考訳（メタデータ） (2022-01-29T10:54:57Z)
Removing Data Heterogeneity Influence Enhances Network Topology Dependence of Decentralized SGD [15.112499553818953]
D$2$/Exact-diffusionアルゴリズムの非同相収束特性について検討する。既存の分散アルゴリズムと比較して、D$2$/Exact-diffusionはネットワークトポロジに最も敏感です。
論文参考訳（メタデータ） (2021-05-17T17:16:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。