論文の概要: Edge of Stability Selectively Shapes Learning Across the Data Distribution
- arxiv url: http://arxiv.org/abs/2606.04212v2
- Date: Mon, 08 Jun 2026 18:25:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 13:21:50.524067
- Title: Edge of Stability Selectively Shapes Learning Across the Data Distribution
- Title(参考訳): データ分布全体で学習する安定形状のエッジ
- Authors: Shauna Kwag, Anakha Ganesh, Tomaso Poggio, Pierfrancesco Beneventano,
- Abstract要約: 安定性の限界 (EoS) は選択的であり, グループによっては進行が増大し, 他グループでは進行が抑制されることが示唆された。
同じトレーニング状態からEoS体制に侵入または離脱する分岐介入を使用することで、このトレードオフを慎重に実証する。
これらの結果から,EoSは安定性境界だけでなく,学習の割り当てを規定するメカニズムとして機能することが示唆された。
- 参考スコア(独自算出の注目度): 0.5799785223420272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing analyses of the edge of stability (EoS) treat it as a global property of optimization. We show that it is also selective: the stability constraint redistributes learning across subsets of the training distribution, amplifying progress on some groups while suppressing progress on others. Using a branching intervention that enters or exits the EoS regime from the same training state, we causally demonstrate this trade-off and identify two necessary conditions for a group to benefit. First, its aggregate gradient must align with the top Hessian eigenvector. We isolate this mechanism with a controlled perturbation that preserves distance but randomizes direction, destroying alignment and eliminating the advantage. Second, the group must sustain non-vanishing gradient magnitude over time. Under cross-entropy loss, gradient saturation decouples confidently classified groups, shifting the advantage to output-outliers, whose gradients persist. Together, these results show that EoS functions not only as a stability boundary, but as a mechanism governing the allocation of learning across the data distribution.
- Abstract(参考訳): 既存の安定性のエッジ(EoS)の分析では、最適化のグローバルな特性として扱われている。
安定制約はトレーニング分布のサブセットにまたがって学習を再分配し、他のグループの進行を抑えながら、一部のグループの進行を増幅する。
同一の訓練状態からEoS体制に入ったり離脱したりする分岐介入を用いて、このトレードオフを慎重に実証し、利益を得るために必要な2つの条件を特定します。
まず、その集合勾配は上ヘッセン固有ベクトルと一致しなければならない。
我々はこの機構を制御された摂動で分離し、距離を保ちながら方向をランダムにし、アライメントを破壊し、有利性を排除した。
第二に、グループは時間の経過とともに非消滅的な勾配を保たなければならない。
クロスエントロピー損失下では、勾配飽和度はグループを確実に分類し、その勾配が持続する出力・アウトリアに利点を移す。
これらの結果から,EoSは安定性境界だけでなく,データ分布をまたいだ学習の配分を規定する機構として機能することが示唆された。
関連論文リスト
- SPAR: Support-Preserving Action Rectification [21.412581761834996]
本研究では,グローバルラーニングを,凍結した純粋な行動クローニングポリシに固定された局所的残差整流として再編成する支援保存行動整流法(SPAR)を提案する。
このフレームワークは、残余空間において微細なフィッティングと局所的なポリシー改善を行い、それによって探索空間を収縮させる。
さらに、潜時サンプリング重み付き回帰機構を利用して、残空間の収着改善勾配競合に対処する潜時自己イミテーションを導入する。
論文 参考訳(メタデータ) (2026-05-27T02:53:41Z) - Multimodal Learning on Low-Quality Data with Conformal Predictive Self-Calibration [72.0672328514289]
マルチモーダル学習は、しばしば低品質データの課題に悩まされる。
コンフォーマル予測自己校正(Conformal Predictive Self-Calibration)と呼ばれる統合フレームワークを提案する。
私たちのフレームワークは、既存の最先端メソッドを一貫して上回ります。
論文 参考訳(メタデータ) (2026-05-05T14:48:52Z) - Dual-Stage Invariant Continual Learning under Extreme Visual Sparsity [8.16821029459195]
背景駆動の勾配は、連続的なドメインシフトの間、機能のバックボーンを不安定にすることを示す。
連成蒸留による二段階不変連続学習フレームワークを提案する。
高分解能空間ベース RSO 検出データセットの実験は、確立された連続物体検出法よりも一貫した改善を示す。
論文 参考訳(メタデータ) (2026-03-27T09:03:49Z) - First-Mover Bias in Gradient Boosting Explanations: Mechanism, Detection, and Resolution [0.0]
第1モーバーバイアス(英: First-mover bias)は、勾配上昇における逐次的残留フィッティングに起因する特徴量の集中である。
モデル独立性は線形状態における最優先バイアスを解くのに十分であり、非線形データ生成プロセス下では最も効果的な緩和法であることを示す。
論文 参考訳(メタデータ) (2026-03-22T02:59:40Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - Ensemble-size-dependence of deep-learning post-processing methods that minimize an (un)fair score: motivating examples and a proof-of-concept solution [0.0]
軌道変換器を,アンサンブルサイズの独立性を実現するための概念実証として導入する。
このアプローチは、トランスフォーマー(PoET)フレームワークによるポストプロセッシング・アンサンブル(Post-processing Ensembles)の適応である。
論文 参考訳(メタデータ) (2026-02-17T18:59:55Z) - Generalizing GNNs with Tokenized Mixture of Experts [75.8310720413187]
安定性の向上には,変化に敏感な特徴への依存を低減し,既約最悪の一般化フロアを残す必要があることを示す。
本研究では,STEM-GNNを提案する。STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN。
9つのノード、リンク、グラフのベンチマークで、STEM-GNNはより強力な3方向バランスを実現し、クリアグラフ上での競争力を維持しながら、次数/ホモフィリーシフトや特徴/エッジの破損に対する堅牢性を改善している。
論文 参考訳(メタデータ) (2026-02-09T22:48:30Z) - A Unified View of Attention and Residual Sinks: Outlier-Driven Rescaling is Essential for Transformer Training [86.64715217940274]
外接線は正規化と共に機能する。
アウトリーチは、コントリビュータではなく、再スケール要因として役立ちます。
外乱は学習可能なパラメータに吸収されるか、明示的なゲート再スケーリングによって緩和される。
論文 参考訳(メタデータ) (2026-01-30T13:29:45Z) - FG-OrIU: Towards Better Forgetting via Feature-Gradient Orthogonality for Incremental Unlearning [24.195588298488314]
既存の手法は、特徴レベルと勾配レベルの両方に明示的な制約を伴わずに、パラメータを抑えるか、知識を混乱させる。
FG-OrIU (textbfFeaturetextbfGradient textbfOrthogonality for textbfIncrementaltextbfUnlearning)を提案する。
Singular Value Decomposition (SVD)を介して特徴空間を分解し、忘れられたり残ったクラス特徴を別々の部分空間に分離する。
論文 参考訳(メタデータ) (2026-01-20T04:05:13Z) - ERIS: An Energy-Guided Feature Disentanglement Framework for Out-of-Distribution Time Series Classification [51.07970070817353]
理想的な時系列分類(TSC)は不変表現をキャプチャできるべきである。
現在の手法は、真に普遍的な特徴を分離するために必要な意味的な方向性を欠いている。
本稿では,シフト・ロバストネス・フレームワークのためのエンドツーエンドのエネルギー規則化情報を提案する。
論文 参考訳(メタデータ) (2025-08-19T12:13:41Z) - Stable Neighbor Denoising for Source-free Domain Adaptive Segmentation [91.83820250747935]
擬似ラベルノイズは主に不安定なサンプルに含まれており、ほとんどのピクセルの予測は自己学習中に大きく変化する。
我々は, 安定・不安定な試料を効果的に発見する, SND(Stable Neighbor Denoising)アプローチを導入する。
SNDは、様々なSFUDAセマンティックセグメンテーション設定における最先端メソッドよりも一貫して優れている。
論文 参考訳(メタデータ) (2024-06-10T21:44:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。