論文の概要: Marginals Before Conditionals
- arxiv url: http://arxiv.org/abs/2603.10074v1
- Date: Tue, 10 Mar 2026 05:51:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.614413
- Title: Marginals Before Conditionals
- Title(参考訳): 条件付き前縁
- Authors: Mihir Sahasrabudhe,
- Abstract要約: ニューラルネットワークにおける条件学習を分離する最小限のタスクを構築する。
モデルはまず辺 P(A | B) を学習し、完全に対数 K のプラトーを生成する。
- 参考スコア(独自算出の注目度): 0.15229257192293197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We construct a minimal task that isolates conditional learning in neural networks: a surjective map with K-fold ambiguity, resolved by a selector token z, so H(A | B) = log K while H(A | B, z) = 0. The model learns the marginal P(A | B) first, producing a plateau at exactly log K, before acquiring the full conditional in a sharp, collective transition. The plateau has a clean decomposition: height = log K (set by ambiguity), duration = f(D) (set by dataset size D, not K). Gradient noise stabilizes the marginal solution: higher learning rates monotonically slow the transition (3.6* across a 7* η range at fixed throughput), and batch-size reduction delays escape, consistent with an entropic force opposing departure from the low-gradient marginal. Internally, a selector-routing head assembles during the plateau, leading the loss transition by ~50% of the waiting time. This is the Type 2 directional asymmetry of Papadopoulos et al. [2024], measured dynamically: we track the excess risk from log K to zero and characterize what stabilizes it, what triggers its collapse, and how long it takes.
- Abstract(参考訳): ニューラルネットワークにおける条件学習を分離する最小限のタスクを構築する: K-フォルダの曖昧さを持つ全射写像はセレクタトークン z によって解決されるので、H(A | B, z) = log K は H(A | B, z) = 0 である。
モデルはまず辺 P(A | B) を学習し、正確な対数 K でプラトーを生成する。
台地は、高さ = log K (曖昧さによって設定)、期間 = f(D) (データセットサイズD、Kではなく、データセットサイズDによって設定) というきれいな分解を持つ。
グラディエントノイズは限界解を安定化させる: 高い学習速度は、一定スループットで 7* η の範囲でトランジションを単調に遅くする(3.6*)。
内部では、セレクタルーティングヘッドが台地中に組み立てられ、待機時間の約50%の損失遷移が導かれる。
これは、Papadopoulos et al [2024] のタイプ2方向の非対称性で、動的に測定され、ログ K から 0 への過剰なリスクを追跡し、それを安定化させるもの、その崩壊を引き起こすもの、そしてそれがどれだけの時間を要するかを特徴付ける。
関連論文リスト
- Fast Non-Episodic Finite-Horizon RL with K-Step Lookahead Thresholding [9.43984448422843]
計画を次のKステップに切り換える K-step lookahead Q-function を導入する。
我々は報酬の最大化を目的としたアルゴリズムの性能を数値的に評価する。
実験により, 合成MDPおよびRL環境における最先端RL法よりも優れた累積報酬が得られた。
論文 参考訳(メタデータ) (2026-01-31T15:44:12Z) - CAO: Curvature-Adaptive Optimization via Periodic Low-Rank Hessian Sketching [0.0]
一階の曲率は信頼性が高いが、鋭く異方性のある領域では遅い。
我々は、ヘッセン積を介してヘッセン部分空間をスケッチする曲率宣言法を用いる。
ResNet-18/34 の CIFAR/100 では、この手法は低損失閾値 (0.75x) をかなり早く入力する。
論文 参考訳(メタデータ) (2025-11-16T10:57:33Z) - KPZ scaling from the Krylov space [83.88591755871734]
近年,Cardar-Parisi-Zhangスケーリングをリアルタイムの相関器や自動相関器に示す超拡散が報告されている。
これらの結果から着想を得て,Krylov演算子に基づく相関関数のKPZスケーリングについて検討する。
論文 参考訳(メタデータ) (2024-06-04T20:57:59Z) - Large Stepsize Gradient Descent for Logistic Loss: Non-Monotonicity of the Loss Improves Optimization Efficiency [47.8739414267201]
線形分離可能なデータを用いたロジスティック回帰に一定の段差を持つ勾配降下(GD)を考える。
GD はこの初期振動位相を急速に終了し、$mathcalO(eta)$ steps となり、その後$tildemathcalO (1 / (eta t) )$ convergence rate が得られることを示す。
我々の結果は、予算が$T$ ステップであれば、GD は攻撃的なステップサイズで $tildemathcalO (1/T2)$ の加速損失を達成できることを示している。
論文 参考訳(メタデータ) (2024-02-24T23:10:28Z) - On the Convergence of Gradient Descent for Large Learning Rates [55.33626480243135]
固定ステップサイズを使用すると収束が不可能であることを示す。
正方形損失を持つ線形ニューラルネットワークの場合,これを証明した。
また、勾配に対するリプシッツ連続性のような強い仮定を必要とせず、より一般的な損失に対する収束の不可能性も証明する。
論文 参考訳(メタデータ) (2024-02-20T16:01:42Z) - Breaking the Heavy-Tailed Noise Barrier in Stochastic Optimization Problems [56.86067111855056]
構造密度の重み付き雑音によるクリップ最適化問題を考察する。
勾配が有限の順序モーメントを持つとき、$mathcalO(K-(alpha - 1)/alpha)$よりも高速な収束率が得られることを示す。
得られた推定値が無視可能なバイアスと制御可能な分散を持つことを示す。
論文 参考訳(メタデータ) (2023-11-07T17:39:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。