論文の概要: Avoiding Premature Collapse: Adaptive Annealing for Entropy-Regularized Structural Inference
- arxiv url: http://arxiv.org/abs/2601.23039v1
- Date: Fri, 30 Jan 2026 14:47:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.50738
- Title: Avoiding Premature Collapse: Adaptive Annealing for Entropy-Regularized Structural Inference
- Title(参考訳): 早期崩壊を避ける:エントロピー規則構造推論のための適応的アニール法
- Authors: Yizhi Liu,
- Abstract要約: 微分可能なマッチング層は、しばしばエントロピー規則化された最適輸送によって実装され、構造予測において重要な近似推論機構として機能する。
この障害の基本的なメカニズムは、 textbf Premature Mode Collapseである。
推論プロセスの安定性を監視する適応スケジューリングアルゴリズムである textbfEfficient PH-ASC を提案する。
- 参考スコア(独自算出の注目度): 1.7523718031184992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Differentiable matching layers, often implemented via entropy-regularized Optimal Transport, serve as a critical approximate inference mechanism in structural prediction. However, recovering discrete permutations via annealing $ε\to 0$ is notoriously unstable. We identify a fundamental mechanism for this failure: \textbf{Premature Mode Collapse}. By analyzing the non-normal dynamics of the Sinkhorn fixed-point map, we reveal a theoretical \textbf{thermodynamic speed limit}. Under standard exponential cooling, the shift in the target posterior ($O(1)$) outpaces the contraction rate of the inference operator, which degrades as $O(1/ε)$. This mismatch inevitably forces the inference trajectory into spurious local basins. To address this, we propose \textbf{Efficient PH-ASC}, an adaptive scheduling algorithm that monitors the stability of the inference process. By enforcing a linear stability law, we decouple expensive spectral diagnostics from the training loop, reducing overhead from $O(N^3)$ to amortized $O(1)$. Our implementation and interactive demo are available at https://github.com/xxx0438/torch-sinkhorn-asc and https://huggingface.co/spaces/leon0923/torch-sinkhorn-asc-demo. bounded away from zero in generic training dynamics unless the feature extractor converges unrealistically fast.
- Abstract(参考訳): 微分可能なマッチング層は、しばしばエントロピー規則化された最適輸送によって実装され、構造予測において重要な近似推論機構として機能する。
しかし、$ε\to 0$をアニールすることで離散的な置換を回復することは、明らかに不安定である。
この失敗の基本的なメカニズムを特定します: \textbf{Premature Mode Collapse}。
シンクホーンの不動点写像の非正規ダイナミクスを解析することにより、理論的な \textbf{thermodynamic speed limit} を明らかにする。
標準的な指数的冷却の下では、ターゲット後部(O(1)$)のシフトは推論演算子の収縮率を上回り、O(1/ε)$として低下する。
このミスマッチは必然的に推論軌道を緩やかな局所盆地に押し込む。
そこで本研究では,推論プロセスの安定性を監視する適応型スケジューリングアルゴリズムである \textbf{Efficient PH-ASC} を提案する。
線形安定法則を施行することにより、高価なスペクトル診断をトレーニングループから切り離し、オーバーヘッドを$O(N^3)$から$O(1)$に削減する。
私たちの実装とインタラクティブなデモは、https://github.com/xxx0438/torch-sinkhorn-ascとhttps://huggingface.co/spaces/leon0923/torch-sinkhorn-asc-demoで公開されています。
特徴抽出器が非現実的に高速に収束しない限り、ジェネリックトレーニングの動力学ではゼロから切り離される。
関連論文リスト
- A Class of Accelerated Fixed-Point-Based Methods with Delayed Inexact Oracles and Its Applications [3.6997773420183866]
我々は,非拡張作用素の固定点を近似するために,遅延不正確なオラクルを用いた固定点ベースのフレームワークを開発する。
本手法はネステロフ加速法とクラスノセル・スキーマン(KM)反復法の両方を利用する。
論文 参考訳(メタデータ) (2025-12-15T17:06:22Z) - Latency and Ordering Effects in Online Decisions [0.0]
オンライン意思決定システムは遅延フィードバックと順序に敏感なダイナミクスの下で動作している。
ヘテロジニアスレイテンシ、非可換性、実装ギャップ効果を1つの下界ステートメントにパッケージ化する。
論文 参考訳(メタデータ) (2025-11-17T07:08:05Z) - INC: An Indirect Neural Corrector for Auto-Regressive Hybrid PDE Solvers [61.84396402100827]
本稿では,学習した補正を支配方程式に統合する間接ニューラルコレクタ(mathrmINC$)を提案する。
$mathrmINC$は、$t-1 + L$の順番でエラー増幅を減らし、$t$はタイムステップ、$L$はリプシッツ定数である。
大規模なベンチマークで$mathrmINC$をテストし、1Dカオスシステムから3D乱流まで、多くの異なる解法、神経バックボーン、テストケースをカバーした。
論文 参考訳(メタデータ) (2025-11-16T20:14:28Z) - Chebyshev Moment Regularization (CMR): Condition-Number Control with Moment Shaping [0.0]
textbfChebyshev Moment Regularization (CMR)を導入する。
CMRは、ログ条件プロキシ形状と内部をチェビシェフモーメントを介して、スペクトルエッジを共同で制御する。
これらの結果は、テキスト最適化によるスペクトル事前条件付け(英語版)をサポートし、安定的で正確な学習のために、よく条件付けられた状態に向けて直接ステアリングする。
論文 参考訳(メタデータ) (2025-10-17T06:54:41Z) - Theoretical Framework for Tempered Fractional Gradient Descent: Application to Breast Cancer Classification [0.0]
本稿では,分数計算と指数的テンパリングを併用し,勾配に基づく学習を向上する新しい最適化フレームワークTFGDを紹介する。
TFGD は、履歴勾配を分数係数 $|w_j| = binomalphaj$ で重み付けし、テンパリングパラメータ $lambda$ で指数関数的に減衰するテンパリングメモリ機構を組み込むことで制限に対処する。
乳がんデータセットにおける実証的検証は、TFGDの優位性を示し、98.25%のテスト精度(vs.92.11%のSGD)と2$times$高速収束を達成した。
論文 参考訳(メタデータ) (2025-04-26T08:26:34Z) - Beyond likelihood ratio bias: Nested multi-time-scale stochastic approximation for likelihood-free parameter estimation [49.78792404811239]
確率分析形式が不明なシミュレーションベースモデルにおける推論について検討する。
我々は、スコアを同時に追跡し、パラメータ更新を駆動する比率のないネスト型マルチタイムスケール近似(SA)手法を用いる。
我々のアルゴリズムは、オリジナルのバイアス$Obig(sqrtfrac1Nbig)$を排除し、収束率を$Obig(beta_k+sqrtfracalpha_kNbig)$から加速できることを示す。
論文 参考訳(メタデータ) (2024-11-20T02:46:15Z) - Towards Understanding the Generalizability of Delayed Stochastic Gradient Descent [63.43247232708004]
非同期で実行される勾配降下は、大規模機械学習モデルのトレーニングにおいて重要な役割を果たす。
既存の一般化誤差境界は悲観的であり、非同期遅延と一般化の相関を明らかにすることはできない。
我々の理論的結果は、非同期遅延は遅延SGDアルゴリズムの一般化誤差を低減することを示唆している。
論文 参考訳(メタデータ) (2023-08-18T10:00:27Z) - Generalization and Stability of Interpolating Neural Networks with
Minimal Width [37.908159361149835]
補間系における勾配によって訓練された浅層ニューラルネットワークの一般化と最適化について検討する。
トレーニング損失数は$m=Omega(log4 (n))$ニューロンとニューロンを最小化する。
m=Omega(log4 (n))$のニューロンと$Tapprox n$で、テスト損失のトレーニングを$tildeO (1/)$に制限します。
論文 参考訳(メタデータ) (2023-02-18T05:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。