Fugu-MT 論文翻訳(概要): Avoiding Premature Collapse: Adaptive Annealing for Entropy-Regularized Structural Inference

論文の概要: Avoiding Premature Collapse: Adaptive Annealing for Entropy-Regularized Structural Inference

arxiv url: http://arxiv.org/abs/2601.23039v3
Date: Wed, 04 Feb 2026 19:27:01 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-06 14:11:23.813781
Title: Avoiding Premature Collapse: Adaptive Annealing for Entropy-Regularized Structural Inference
Title（参考訳）: 早期崩壊を避ける:エントロピー規則構造推論のための適応的アニール法
Authors: Yizhi Liu,
Abstract要約: この障害の基本的なメカニズムは、 textbf Premature Mode Collapseである。提案手法は,適応型スケジューリングアルゴリズムであるtextbfEfficient Piecewise Hybrid Adaptive Stability Control (EPH-ASC) で,推論過程の安定性をモニタする。
参考スコア（独自算出の注目度）: 1.7523718031184992
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Differentiable matching layers and residual connection paradigms, often implemented via entropy-regularized Optimal Transport (OT), serve as critical mechanisms in structural prediction and architectural scaling. However, recovering discrete permutations or maintaining identity mappings via annealing $ε\to 0$ is notoriously unstable. In this work, we identify a fundamental mechanism for this failure: \textbf{Premature Mode Collapse}. By analyzing the non-normal dynamics of the Sinkhorn fixed-point map, we reveal a theoretical thermodynamic speed limit: standard exponential cooling outpaces the contraction rate of the inference operator, which degrades as $O(1/ε)$. To address this, we propose \textbf{Efficient Piecewise Hybrid Adaptive Stability Control (EPH-ASC)}, an adaptive scheduling algorithm that monitors the stability of the inference process. We demonstrate that EPH-ASC is essential for stabilizing Manifold-Constrained Hyper-Connections (mHC) during large-scale training on the FineWeb-Edu dataset, effectively preventing late-stage gradient explosions by enforcing a linear stability law.
Abstract（参考訳）: 異なるマッチング層と残留接続パラダイムは、しばしばエントロピー規則化された最適輸送(OT)によって実装され、構造予測とアーキテクチャスケーリングにおいて重要なメカニズムとして機能する。しかし、離散的な置換を回復したり、$ε\to 0$をアニールすることでアイデンティティマッピングを維持することは、非常に不安定である。本研究では、この障害の基本的なメカニズムを同定する: \textbf{Premature Mode Collapse}。シンクホーンの不動点写像の非正規力学を解析することにより、理論的な熱力学の速度限界が明らかになる: 標準指数冷却は推論演算子の収縮速度を上回り、$O(1/ε)$と分解する。そこで本稿では, 適応型スケジューリングアルゴリズムである EPH-ASC を用いて, 推論過程の安定性をモニタする。我々は,FineWeb-Eduデータセットの大規模トレーニングにおいて,EPH-ASCがmanifold-Constrained Hyper-Connections (mHC) の安定化に不可欠であることが実証された。

関連論文リスト

A Class of Accelerated Fixed-Point-Based Methods with Delayed Inexact Oracles and Its Applications [3.6997773420183866]
我々は,非拡張作用素の固定点を近似するために,遅延不正確なオラクルを用いた固定点ベースのフレームワークを開発する。本手法はネステロフ加速法とクラスノセル・スキーマン(KM)反復法の両方を利用する。
論文参考訳（メタデータ） (2025-12-15T17:06:22Z)
Latency and Ordering Effects in Online Decisions [0.0]
オンライン意思決定システムは遅延フィードバックと順序に敏感なダイナミクスの下で動作している。ヘテロジニアスレイテンシ、非可換性、実装ギャップ効果を1つの下界ステートメントにパッケージ化する。
論文参考訳（メタデータ） (2025-11-17T07:08:05Z)
INC: An Indirect Neural Corrector for Auto-Regressive Hybrid PDE Solvers [61.84396402100827]
本稿では,学習した補正を支配方程式に統合する間接ニューラルコレクタ(mathrmINC$)を提案する。 $mathrmINC$は、$t-1 + L$の順番でエラー増幅を減らし、$t$はタイムステップ、$L$はリプシッツ定数である。大規模なベンチマークで$mathrmINC$をテストし、1Dカオスシステムから3D乱流まで、多くの異なる解法、神経バックボーン、テストケースをカバーした。
論文参考訳（メタデータ） (2025-11-16T20:14:28Z)
Chebyshev Moment Regularization (CMR): Condition-Number Control with Moment Shaping [0.0]
textbfChebyshev Moment Regularization (CMR)を導入する。 CMRは、ログ条件プロキシ形状と内部をチェビシェフモーメントを介して、スペクトルエッジを共同で制御する。これらの結果は、テキスト最適化によるスペクトル事前条件付け(英語版)をサポートし、安定的で正確な学習のために、よく条件付けられた状態に向けて直接ステアリングする。
論文参考訳（メタデータ） (2025-10-17T06:54:41Z)
Theoretical Framework for Tempered Fractional Gradient Descent: Application to Breast Cancer Classification [0.0]
本稿では,分数計算と指数的テンパリングを併用し,勾配に基づく学習を向上する新しい最適化フレームワークTFGDを紹介する。 TFGD は、履歴勾配を分数係数 $|w_j| = binomalphaj$ で重み付けし、テンパリングパラメータ $lambda$ で指数関数的に減衰するテンパリングメモリ機構を組み込むことで制限に対処する。乳がんデータセットにおける実証的検証は、TFGDの優位性を示し、98.25%のテスト精度(vs.92.11%のSGD)と2$times$高速収束を達成した。
論文参考訳（メタデータ） (2025-04-26T08:26:34Z)
Beyond likelihood ratio bias: Nested multi-time-scale stochastic approximation for likelihood-free parameter estimation [49.78792404811239]
確率分析形式が不明なシミュレーションベースモデルにおける推論について検討する。我々は、スコアを同時に追跡し、パラメータ更新を駆動する比率のないネスト型マルチタイムスケール近似(SA)手法を用いる。我々のアルゴリズムは、オリジナルのバイアス$Obig(sqrtfrac1Nbig)$を排除し、収束率を$Obig(beta_k+sqrtfracalpha_kNbig)$から加速できることを示す。
論文参考訳（メタデータ） (2024-11-20T02:46:15Z)
Towards Understanding the Generalizability of Delayed Stochastic Gradient Descent [63.43247232708004]
非同期で実行される勾配降下は、大規模機械学習モデルのトレーニングにおいて重要な役割を果たす。既存の一般化誤差境界は悲観的であり、非同期遅延と一般化の相関を明らかにすることはできない。我々の理論的結果は、非同期遅延は遅延SGDアルゴリズムの一般化誤差を低減することを示唆している。
論文参考訳（メタデータ） (2023-08-18T10:00:27Z)
Generalization and Stability of Interpolating Neural Networks with Minimal Width [37.908159361149835]
補間系における勾配によって訓練された浅層ニューラルネットワークの一般化と最適化について検討する。トレーニング損失数は$m=Omega(log4 (n))$ニューロンとニューロンを最小化する。 m=Omega(log4 (n))$のニューロンと$Tapprox n$で、テスト損失のトレーニングを$tildeO (1/)$に制限します。
論文参考訳（メタデータ） (2023-02-18T05:06:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。