論文の概要: From Memorization to Reasoning in the Spectrum of Loss Curvature
- arxiv url: http://arxiv.org/abs/2510.24256v1
- Date: Tue, 28 Oct 2025 10:09:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.01193
- Title: From Memorization to Reasoning in the Spectrum of Loss Curvature
- Title(参考訳): 損失曲率スペクトルの記憶から推論へ
- Authors: Jack Merullo, Srihita Vatsavaya, Lucius Bushnaq, Owen Lewis,
- Abstract要約: 記憶化は言語モデル (LM) と視覚変換器 (ViT) の両方の重みで切り離すことができることを示す。
本研究は,LMにおける下流タスクに対する編集手順の影響を広範囲に分析し,事実検索と算術が特に負の影響を受けることを明らかにする。
- 参考スコア(独自算出の注目度): 6.463682206736737
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We characterize how memorization is represented in transformer models and show that it can be disentangled in the weights of both language models (LMs) and vision transformers (ViTs) using a decomposition based on the loss landscape curvature. This insight is based on prior theoretical and empirical work showing that the curvature for memorized training points is much sharper than non memorized, meaning ordering weight components from high to low curvature can reveal a distinction without explicit labels. This motivates a weight editing procedure that suppresses far more recitation of untargeted memorized data more effectively than a recent unlearning method (BalancedSubnet), while maintaining lower perplexity. Since the basis of curvature has a natural interpretation for shared structure in model weights, we analyze the editing procedure extensively on its effect on downstream tasks in LMs, and find that fact retrieval and arithmetic are specifically and consistently negatively affected, even though open book fact retrieval and general logical reasoning is conserved. We posit these tasks rely heavily on specialized directions in weight space rather than general purpose mechanisms, regardless of whether those individual datapoints are memorized. We support this by showing a correspondence between task data's activation strength with low curvature components that we edit out, and the drop in task performance after the edit. Our work enhances the understanding of memorization in neural networks with practical applications towards removing it, and provides evidence for idiosyncratic, narrowly-used structures involved in solving tasks like math and fact retrieval.
- Abstract(参考訳): 我々は,記憶がトランスフォーマーモデルでどのように表現されるのかを特徴付けるとともに,ロスランドスケープ曲率に基づく分解を用いて,言語モデル(LM)と視覚トランスフォーマー(ViT)の両方の重みに絡み合わせることができることを示す。
この知見は、記憶されたトレーニングポイントの曲率が、記憶されていないものよりもはるかにシャープであること、すなわち、高い曲率から低い曲率への重み成分の順序付けが、明示的なラベルなしで区別できることを示す、以前の理論的および経験的な研究に基づいている。
これは、最近の未学習法(BalancedSubnet)よりもはるかに効果的に、未ターゲットの記憶データのより効率的な再引用を抑制し、低いパープレキシティを維持しながら、重量編集の手順を動機付けている。
曲率の基本はモデル重みの共有構造を自然な解釈で解釈するので、オープンブックの事実検索や一般論理推論が保存されているにもかかわらず、その編集手順がLMの下流タスクに与える影響を広範囲に分析し、事実検索と算術が特に一貫的に負の影響を受けることを発見した。
これらのタスクは、個々のデータポイントが記憶されているかどうかに関わらず、一般的な目的のメカニズムよりも、重量空間の特殊方向に大きく依存していると仮定する。
我々は,タスクデータのアクティベーション強度と編集後の低曲率成分と,編集後のタスクパフォーマンスの低下との対応性を示すことで,これを支援する。
我々の研究は、ニューラルネットワークにおける記憶の理解を強化し、それを取り除くための実践的な応用を提供し、数学や事実検索といった課題の解決に関わる、慣用的な、狭義の構造物の証拠を提供する。
関連論文リスト
- LLM Unlearning on Noisy Forget Sets: A Study of Incomplete, Rewritten, and Watermarked Data [69.5099112089508]
大規模言語モデル(LLM)は、顕著な生成能力を示すが、機密データを記憶することで倫理的およびセキュリティ上の懸念を引き起こす。
この研究は、ノイズのある忘れセットと呼ばれる、摂動的または低忠実な忘れデータの下での未学習に関する最初の研究を提示する。
コアセマンティック信号が保存されている場合、未学習は摂動に対して驚くほど堅牢である。
論文 参考訳(メタデータ) (2025-10-10T05:10:49Z) - Mechanistic Interpretability in the Presence of Architectural Obfuscation [0.0]
アーキテクチャ難読化(Architectural obfuscation)は、プライバシ保存型大言語モデル(LLM)推論における重み付き暗号の軽量代用である。
我々は,代表的難読化マップを用いて,スクラッチから訓練したGPT-2小モデルを分析する。
その結果,難読化は注目ヘッド内のアクティベーションパターンを劇的に変化させるが,層幅の計算グラフは保存されることがわかった。
論文 参考訳(メタデータ) (2025-06-22T14:39:16Z) - Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - SINDER: Repairing the Singular Defects of DINOv2 [61.98878352956125]
大規模なデータセットでトレーニングされたビジョントランスフォーマーモデルは、抽出したパッチトークンにアーティファクトを表示することが多い。
本稿では,小さなデータセットのみを用いて構造欠陥を補正するスムーズなスムーズな正規化を提案する。
論文 参考訳(メタデータ) (2024-07-23T20:34:23Z) - Unveiling Privacy, Memorization, and Input Curvature Links [11.290935303784208]
記憶は一般化、ノイズ学習、プライバシーといったいくつかの概念と密接に関連している。
近年の研究では、入力損失曲率(ロスヘシアン w.r.t 入力の痕跡によって測定される)と記憶とを結びつける証拠が示されている。
解析を拡張して、差分プライバシー、記憶、入力損失曲線の理論的関係を確立する。
論文 参考訳(メタデータ) (2024-02-28T22:02:10Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - To grok or not to grok: Disentangling generalization and memorization on
corrupted algorithmic datasets [5.854190253899593]
本稿では,一般化表現を解析的に理解し,記憶表現と容易に区別できる解釈可能なモデルについて検討する。
i) ネットワークが破損したラベルを記憶し、同時に100%の一般化を達成できることが示される。
また、正規化が存在する場合、トレーニングダイナミクスは2つの連続的な段階を含むことを示す。
論文 参考訳(メタデータ) (2023-10-19T18:01:10Z) - Repetition In Repetition Out: Towards Understanding Neural Text
Degeneration from the Data Perspective [91.14291142262262]
この研究は、データの観点から、単純で基本的な説明を提示する。
予備調査では, 退化問題とトレーニングデータにおける反復の有無との間には強い相関関係がみられた。
実験の結果,訓練データにおける繰り返しのペナルティ化は,より大きなモデルサイズや命令のチューニングを考慮しても重要な課題であることがわかった。
論文 参考訳(メタデータ) (2023-10-16T09:35:42Z) - Unveiling Transformers with LEGO: a synthetic reasoning task [23.535488809197787]
我々は、トランスフォーマーアーキテクチャが推論の連鎖に従うことを学ぶ方法について研究する。
一部のデータ構造では、訓練されたトランスフォーマーは、推論の連鎖に従う"ショートカット"ソリューションを見つける。
このようなショートカットが適切なアーキテクチャ修正やデータ準備によって防止できることが分かりました。
論文 参考訳(メタデータ) (2022-06-09T06:30:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。