論文の概要: Process-Tensor Tomography of SGD: Measuring Non-Markovian Memory via Back-Flow of Distinguishability
- arxiv url: http://arxiv.org/abs/2601.16563v1
- Date: Fri, 23 Jan 2026 09:03:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.614537
- Title: Process-Tensor Tomography of SGD: Measuring Non-Markovian Memory via Back-Flow of Distinguishability
- Title(参考訳): SGDのプロセステンソルトモグラフィー:識別性のバックフローによる非マルコフ記憶の測定
- Authors: Vasileios Sevetlidis, George Pavlidis,
- Abstract要約: 我々は,識別可能性のオンフバックフローに基づく学習記憶のモデルに依存しない簡易な目撃者を構築した。
高い運動量下での増幅, よりマイクロステップで, 厳密なブートストラップ信頼区間による一貫した正の逆流を観察した。
我々はこれを、実用的なSGDがマルコフの理想化から逸脱する、原則化された診断および実証的な証拠として位置付ける。
- 参考スコア(独自算出の注目度): 1.078600700827543
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work proposes neural training as a \emph{process tensor}: a multi-time map that takes a sequence of controllable instruments (batch choices, augmentations, optimizer micro-steps) and returns an observable of the trained model. Building on this operational lens, we introduce a simple, model-agnostic witness of training memory based on \emph{back-flow of distinguishability}. In a controlled two-step protocol, we compare outcome distributions after one intervention versus two; the increase $Δ_{\mathrm{BF}} = D_2 - D_1>0$ (with $D\in\{\mathrm{TV}, \mathrm{JS}, \mathrm{H}\}$ measured on softmax predictions over a fixed probe set) certifies non-Markovianity. We observe consistent positive back-flow with tight bootstrap confidence intervals, amplification under higher momentum, larger batch overlap, and more micro-steps, and collapse under a \emph{causal break} (resetting optimizer state), directly attributing the effect to optimizer/data-state memory. The witness is robust across TV/JS/Hellinger, inexpensive to compute, and requires no architectural changes. We position this as a \emph{measurement} contribution: a principled diagnostic and empirical evidence that practical SGD deviates from the Markov idealization. An exploratory case study illustrates how the micro-level signal can inform curriculum orderings. "Data order matters" turns into a testable operator with confidence bounds, our framework offers a common stage to compare optimizers, curricula, and schedules through their induced training memory.
- Abstract(参考訳): この研究は、制御可能な機器(バッチの選択、拡張、オプティマイザのマイクロステップ)のシーケンスを取り、トレーニングされたモデルの可観測性を返すマルチタイムマップである「emph{process tensor}」としてニューラルトレーニングを提案する。
このオペレーショナルレンズをベースとして,識別可能性のemph{back-flow}に基づくトレーニングメモリのモデルに依存しない簡易な目撃者を紹介した。
Δ_{\mathrm{BF}} = D_2 - D_1>0$($D\in\{\mathrm{TV}, \mathrm{JS}, \mathrm{H}\}$)の増加は非マルコフ性を示す。
我々は, ブートストラップの信頼区間の厳密化, 高運動量での増幅, バッチオーバーラップの増大, マイクロステップの増大, および \emph{causal break} (オプティマイザ状態のリセット) の下での崩壊を観察し, 直接, その効果をオプティマイザ/データ状態メモリに寄与させる。
目撃者はTV/JS/Hellingerで堅牢で、計算に安価で、アーキテクチャの変更を必要としない。
我々はこれを、マルコフの理想化から現実的なSGDが逸脱する、原則化された診断と実証的な証拠として位置づける。
探索的なケーススタディでは、マイクロレベルの信号がカリキュラムの注文を通知する方法が示されている。
信頼性バウンダリを持つテスト可能な演算子となり、我々のフレームワークは、オプティマイザ、キュキュキュラ、スケジュールを誘導学習メモリで比較するための共通ステージを提供します。
関連論文リスト
- Gradient Dynamics of Attention: How Cross-Entropy Sculpts Bayesian Manifolds [0.4779196219827507]
本研究では,トランスフォーマーアテンションヘッドにおいて,クロスエントロピートレーニングがアテンションスコアとバリューベクターをいかに再帰させるかを示す。
私たちの中核的な成果は、注目スコアに対する強調に基づくルーティング法です。
この結合された特殊化は、2時間規模のEMプロシージャのように振る舞うことを示す。
論文 参考訳(メタデータ) (2025-12-27T05:31:44Z) - Phase-space entropy at acquisition reflects downstream learnability [54.4100065023873]
楽器分解位相空間に基づく取得レベルスカラー$S_mathcal B$を提案する。
本稿では, (S_mathcal B) が周期サンプリングの位相空間コヒーレンスを正確に同定できることを理論的に示す。
$|S_mathcal B|$は一貫してサンプリングジオメトリをランク付けし、トレーニングなしで下流での再構築/認識の困難を予測します。
論文 参考訳(メタデータ) (2025-12-22T10:03:51Z) - Uncertainty-Aware Graph Self-Training with Expectation-Maximization Regularization [2.743479615751918]
半教師付きノード分類のためのグラフ自己学習手法を提案する。
本手法は,擬似ラベル生成とモデル再学習における不確実性機構を組み込んだものである。
我々のフレームワークは、ノイズの多いグラフ構造や特徴空間をより効率的に扱うように設計されています。
論文 参考訳(メタデータ) (2025-03-26T21:52:21Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Mutual-Information Based Few-Shot Classification [34.95314059362982]
数ショット学習のためのTIM(Transductive Infomation Maximization)を提案する。
提案手法は,与えられた数発のタスクに対して,クエリ特徴とラベル予測との相互情報を最大化する。
そこで我々は,勾配に基づく最適化よりもトランスダクティブ推論を高速化する交代方向解法を提案する。
論文 参考訳(メタデータ) (2021-06-23T09:17:23Z) - Coping with Label Shift via Distributionally Robust Optimisation [72.80971421083937]
分散ロバスト最適化(DRO)に基づく目的最小化モデルを提案する。
そこで我々は,提案した目的を最適化するために,大規模問題に適した勾配降下近位ミラー上昇アルゴリズムを設計し,解析する。
論文 参考訳(メタデータ) (2020-10-23T08:33:04Z) - Least Squares Regression with Markovian Data: Fundamental Limits and
Algorithms [69.45237691598774]
マルコフ連鎖からデータポイントが依存しサンプリングされる最小二乗線形回帰問題について検討する。
この問題を$tau_mathsfmix$という観点から、鋭い情報理論のミニマックス下限を確立する。
本稿では,経験的リプレイに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-16T04:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。