論文の概要: When Does Margin Clamping Affect Training Variance? Dataset-Dependent Effects in Contrastive Forward-Forward Learning
- arxiv url: http://arxiv.org/abs/2603.00951v1
- Date: Sun, 01 Mar 2026 07:00:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.428501
- Title: When Does Margin Clamping Affect Training Variance? Dataset-Dependent Effects in Contrastive Forward-Forward Learning
- Title(参考訳): マージンクランプはトレーニング変数にいつ影響を及ぼすか? 対照的な前向き学習におけるデータセット依存の影響
- Authors: Joshua Steier,
- Abstract要約: コントラストフォワード(Contrastive Forward-Forward, CFF)学習は、教師付きコントラスト目標に対して、ビジョントランスフォーマーを層別に層状化する。
比較損失における正対辺のマージンは、類似度クランプの飽和により適用される。
対数確率の後にマージンを減じる別の定式化が、平均-上-正の還元の下で勾配ニュートラルであることを証明する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contrastive Forward-Forward (CFF) learning trains Vision Transformers layer by layer against supervised contrastive objectives. CFF training can be sensitive to random seed, but the sources of this instability are poorly understood. We focus on one implementation detail: the positive-pair margin in the contrastive loss is applied through saturating similarity clamping, $\min(s + m,\, 1)$. We prove that an alternative formulation, subtracting the margin after the log-probability, is gradient-neutral under the mean-over-positives reduction. On CIFAR-10 ($2 \times 2$ factorial, $n{=}7$ seeds per cell), clamping produces $5.90\times$ higher pooled test-accuracy variance ($p{=}0.003$) with no difference in mean accuracy. Analyses of clamp activation rates, layerwise gradient norms, and a reduced-margin probe point to saturation-driven gradient truncation at early layers. The effect does not transfer cleanly to other datasets: on CIFAR-100, SVHN, and Fashion-MNIST, clamping produces equal or lower variance. Two factors account for the discrepancy. First, positive-pair density per batch controls how often saturation occurs. Second, task difficulty compresses seed-to-seed spread when accuracy is high. An SVHN difficulty sweep confirms the interaction on a single dataset, with the variance ratio moving from $0.25\times$ at high accuracy to $16.73\times$ under aggressive augmentation. In moderate-accuracy regimes with many same-class pairs per batch, switching to the gradient-neutral subtraction reference removes this variance inflation at no cost to mean accuracy. Measuring the layer-0 clamp activation rate serves as a simple check for whether the problem applies.
- Abstract(参考訳): コントラストフォワード(Contrastive Forward-Forward, CFF)学習は、教師付きコントラスト目標に対して、ビジョントランスフォーマーを層別に層状化する。
CFFトレーニングはランダムシードに敏感であるが、この不安定性の源泉は理解されていない。
比較損失の正対マージンは、類似度クラッピングの飽和化によって適用され、$\min(s + m,\, 1)$である。
対数確率の後にマージンを減じる別の定式化が、平均-上-正の還元の下で勾配ニュートラルであることを証明する。
CIFAR-10$2 \times 2$ factorial, $n{=}7$ seed per cell)では、クラムピングは平均精度に差はなく、より高いプール化テスト精度の分散(p{=}0.003$)を5.90\times$に生成する。
初期層における飽和誘導勾配乱れに対するクランプ活性化速度, 層状勾配ノルム, 還元マージンプローブの解析
この効果は、CIFAR-100、SVHN、Fashion-MNISTなど他のデータセットにきれいに伝達されない。
2つの要因が相違の原因となっている。
まず、バッチ当たりの正対密度は飽和の発生頻度を制御する。
第二に、課題難易度は、精度が高いときに種子から種子への拡散を圧縮する。
SVHNの難易度スイープは、1つのデータセット上の相互作用を確認し、分散比は0.25\times$から16.73\times$に高い精度で推移する。
バッチ毎に同じクラスのペアが多数存在する中等度精度のレギュレーションでは、勾配中性減算基準に切り替えることで、この分散インフレーションをコストなしで除去し、精度を平均する。
レイヤ0クランプのアクティベーション率の測定は、問題が適用されるかどうかの簡単なチェックとして役立ちます。
関連論文リスト
- Optimal Unconstrained Self-Distillation in Ridge Regression: Strict Improvements, Precise Asymptotics, and One-Shot Tuning [61.07540493350384]
自己蒸留(英: Self-distillation, SD)とは、教師自身の予測と地道の混合で学生を訓練する過程である。
任意の予測リスクに対して、各正規化レベルにおいて、最適に混合された学生がリッジ教師に改善されることが示される。
本稿では,グリッド探索やサンプル分割,再構成なしに$star$を推定する一貫したワンショットチューニング手法を提案する。
論文 参考訳(メタデータ) (2026-02-19T17:21:15Z) - Information Hidden in Gradients of Regression with Target Noise [2.8911861322232686]
勾配だけでヘッセンが明らかになることを示す。
我々はガウス以下の入力の下で非漸近作用素ノルム保証を提供する。
論文 参考訳(メタデータ) (2026-01-26T14:50:16Z) - Algorithm-Relative Trajectory Valuation in Policy Gradient Control [12.29802562975378]
政策段階制御において,軌道値が学習アルゴリズムにどう依存するかを考察する。
不確実なLQRにおけるトラジェクティブシェープを用いて,バニラReINFORCEの下でのPE(Persistence of Excitation)と限界値との負の相関を見出した。
論文 参考訳(メタデータ) (2025-11-11T06:25:52Z) - Flip-Flop Consistency: Unsupervised Training for Robustness to Prompt Perturbations in LLMs [2.125148574616104]
大規模言語モデル(LLM)は、しばしば同じプロンプトの異なる言い回しに直面したときに矛盾する答えを生成する。
Flip-Flop Consistency(F2C$)を提案する。
提案手法は4つのNLPタスクにまたがる11のデータセットに対して,データセット毎に4~15のばらつきが生じる。
論文 参考訳(メタデータ) (2025-10-16T02:54:01Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - Adapt in the Wild: Test-Time Entropy Minimization with Sharpness and Feature Regularization [85.50560211492898]
テスト時適応(TTA)は、テストデータが分散シフトが混在している場合、モデルの性能を改善または損なう可能性がある。
これはしばしば、既存のTTAメソッドが現実世界にデプロイされるのを防ぐ重要な障害である。
両面からTTAを安定化させるため,SARと呼ばれる鋭く信頼性の高いエントロピー最小化手法を提案する。
論文 参考訳(メタデータ) (2025-09-05T10:03:00Z) - Clustered Switchback Designs for Experimentation Under Spatio-temporal Interference [44.644520116360106]
我々は, 平均治療効果 (GATE) を推定し, 全単位を常に治療やコントロールに曝露した平均結果の差を推定した。
そこで我々は,単位をクラスタにグループ化し,時間ステップをブロックにグループ化する,クラスタ化されたスイッチバック設計を提案する。
良好なクラスタリングを許容するグラフに対して, トラッピングされたHorvitz-Thompson推定器が$tilde O(1/NT)$平均二乗誤差(MSE)を達成することを示す。
我々の結果は、citethu2022switchback、ugander2013graph、citetleung2022rateの結果を同時に一般化する。
論文 参考訳(メタデータ) (2023-12-25T01:00:58Z) - TIC-TAC: A Framework for Improved Covariance Estimation in Deep Heteroscedastic Regression [109.69084997173196]
奥行き回帰は、予測分布の平均と共分散を負の対数類似度を用いて共同最適化する。
近年の研究では, 共分散推定に伴う課題により, 準最適収束が生じる可能性が示唆されている。
1)予測共分散は予測平均のランダム性を真に捉えているか?
その結果, TICは共分散を正確に学習するだけでなく, 負の対数類似性の収束性の向上も促進することがわかった。
論文 参考訳(メタデータ) (2023-10-29T09:54:03Z) - Gradient Estimation for Binary Latent Variables via Gradient Variance
Clipping [6.234350105794441]
勾配推定はしばしば、離散潜在変数を持つ生成モデルに適合するために必要である。
DisARMや他の推定器は、パラメータ空間の境界付近でばらつきを爆発させる可能性がある。
パラメータ空間の境界における分散を小さくする勾配推定器 textitbitflip-1 を提案する。
論文 参考訳(メタデータ) (2022-08-12T05:37:52Z) - Understanding Gradient Descent on Edge of Stability in Deep Learning [32.03036040349019]
本稿では,EoS相における暗黙的正則化の新たなメカニズムを数学的に解析し,非滑らかな損失景観によるGD更新が,最小損失の多様体上の決定論的流れに沿って進化することを示した。
以上の理論的結果は実験によって裏付けられている。
論文 参考訳(メタデータ) (2022-05-19T17:57:01Z) - Scale-Equivalent Distillation for Semi-Supervised Object Detection [57.59525453301374]
近年のSemi-Supervised Object Detection (SS-OD) 法は主に自己学習に基づいており、教師モデルにより、ラベルなしデータを監視信号としてハードな擬似ラベルを生成する。
実験結果から,これらの手法が直面する課題を分析した。
本稿では,大規模オブジェクトサイズの分散とクラス不均衡に頑健な簡易かつ効果的なエンド・ツー・エンド知識蒸留フレームワークであるSED(Scale-Equivalent Distillation)を提案する。
論文 参考訳(メタデータ) (2022-03-23T07:33:37Z) - Sample Complexity of Asynchronous Q-Learning: Sharper Analysis and
Variance Reduction [63.41789556777387]
非同期Q-ラーニングはマルコフ決定過程(MDP)の最適行動値関数(またはQ-関数)を学習することを目的としている。
Q-関数の入出力$varepsilon$-正確な推定に必要なサンプルの数は、少なくとも$frac1mu_min (1-gamma)5varepsilon2+ fract_mixmu_min (1-gamma)$の順である。
論文 参考訳(メタデータ) (2020-06-04T17:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。