論文の概要: Avoiding Premature Collapse: Adaptive Annealing for Entropy-Regularized Structural Inference
- arxiv url: http://arxiv.org/abs/2601.23039v3
- Date: Wed, 04 Feb 2026 19:27:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 14:11:23.813781
- Title: Avoiding Premature Collapse: Adaptive Annealing for Entropy-Regularized Structural Inference
- Title(参考訳): 早期崩壊を避ける:エントロピー規則構造推論のための適応的アニール法
- Authors: Yizhi Liu,
- Abstract要約: この障害の基本的なメカニズムは、 textbf Premature Mode Collapseである。
提案手法は,適応型スケジューリングアルゴリズムであるtextbfEfficient Piecewise Hybrid Adaptive Stability Control (EPH-ASC) で,推論過程の安定性をモニタする。
- 参考スコア(独自算出の注目度): 1.7523718031184992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Differentiable matching layers and residual connection paradigms, often implemented via entropy-regularized Optimal Transport (OT), serve as critical mechanisms in structural prediction and architectural scaling. However, recovering discrete permutations or maintaining identity mappings via annealing $ε\to 0$ is notoriously unstable. In this work, we identify a fundamental mechanism for this failure: \textbf{Premature Mode Collapse}. By analyzing the non-normal dynamics of the Sinkhorn fixed-point map, we reveal a theoretical thermodynamic speed limit: standard exponential cooling outpaces the contraction rate of the inference operator, which degrades as $O(1/ε)$. To address this, we propose \textbf{Efficient Piecewise Hybrid Adaptive Stability Control (EPH-ASC)}, an adaptive scheduling algorithm that monitors the stability of the inference process. We demonstrate that EPH-ASC is essential for stabilizing Manifold-Constrained Hyper-Connections (mHC) during large-scale training on the FineWeb-Edu dataset, effectively preventing late-stage gradient explosions by enforcing a linear stability law.
- Abstract(参考訳): 異なるマッチング層と残留接続パラダイムは、しばしばエントロピー規則化された最適輸送(OT)によって実装され、構造予測とアーキテクチャスケーリングにおいて重要なメカニズムとして機能する。
しかし、離散的な置換を回復したり、$ε\to 0$をアニールすることでアイデンティティマッピングを維持することは、非常に不安定である。
本研究では、この障害の基本的なメカニズムを同定する: \textbf{Premature Mode Collapse}。
シンクホーンの不動点写像の非正規力学を解析することにより、理論的な熱力学の速度限界が明らかになる: 標準指数冷却は推論演算子の収縮速度を上回り、$O(1/ε)$と分解する。
そこで本稿では, 適応型スケジューリングアルゴリズムである EPH-ASC を用いて, 推論過程の安定性をモニタする。
我々は,FineWeb-Eduデータセットの大規模トレーニングにおいて,EPH-ASCがmanifold-Constrained Hyper-Connections (mHC) の安定化に不可欠であることが実証された。
関連論文リスト
- Physics-informed post-processing of stabilized finite element solutions for transient convection-dominated problems [0.0]
本研究は、PINN-Augmented SUPG を Shock-Capturing (PASSC) 方法論で拡張するハイブリッド計算フレームワークを提案する。
この手法は半離散有限安定化法と過渡対流拡散に基づく方程式に対するPINN要素補正戦略を組み合わせたものである。
論文 参考訳(メタデータ) (2026-03-03T18:51:17Z) - Entropy-Controlled Flow Matching [0.08460698440162889]
本稿では,グローバルエントロピーレートの予算d/dt H(mu_t) >=-lambdaを強制する連続性方程式パスに対する制約付き変分原理を提案する。
そこで我々は,Lipschitzによる証明型モード被覆と密度フロア保証を取得し,非拘束フローマッチングのための準最適逆例を構築した。
論文 参考訳(メタデータ) (2026-02-25T06:07:01Z) - Stability and Generalization of Push-Sum Based Decentralized Optimization over Directed Graphs [55.77845440440496]
プッシュベースの分散通信は、情報交換が非対称である可能性のある通信ネットワークの最適化を可能にする。
我々は、グラディエント・プッシュ(SGP)アルゴリズムのための統一的な一様安定性フレームワークを開発する。
重要な技術的要素は、2つの量に束縛された不均衡認識の一般化である。
論文 参考訳(メタデータ) (2026-02-24T05:32:03Z) - KoopGen: Koopman Generator Networks for Representing and Predicting Dynamical Systems with Continuous Spectra [65.11254608352982]
生成元をベースとしたニューラル・クープマン・フレームワークを導入し,構造的かつ状態に依存したクープマン・ジェネレータの表現を通じて動的にモデル化する。
固有のカルテス分解をスキュー結合および自己結合成分に利用することにより、KoopGenは可逆的な散逸から保守的な輸送を分離する。
論文 参考訳(メタデータ) (2026-02-15T06:32:23Z) - Generalizing GNNs with Tokenized Mixture of Experts [75.8310720413187]
安定性の向上には,変化に敏感な特徴への依存を低減し,既約最悪の一般化フロアを残す必要があることを示す。
本研究では,STEM-GNNを提案する。STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN。
9つのノード、リンク、グラフのベンチマークで、STEM-GNNはより強力な3方向バランスを実現し、クリアグラフ上での競争力を維持しながら、次数/ホモフィリーシフトや特徴/エッジの破損に対する堅牢性を改善している。
論文 参考訳(メタデータ) (2026-02-09T22:48:30Z) - Memory-Conditioned Flow-Matching for Stable Autoregressive PDE Rollouts [0.0]
自己回帰生成型PDEソルバは1歩前進し、長いロールアウトでドリフトする。
未解決変数の除去はマルコフ項で完全に解決された進化をもたらすことを示す。
次に、条件生成誤差からメモリ近似を分離する離散的なGrnwallロールアウト境界を導出する。
論文 参考訳(メタデータ) (2026-02-06T13:21:52Z) - Dissipative Learning: A Framework for Viable Adaptive Systems [0.6345523830122167]
本稿では, BEDS(Bayesian Emergent Dissipative Structures)フレームワークを導入し, 分散制約下での圧縮信念状態の進化として学習をモデル化する。
中心的な貢献は最適性定理であり、ユークリッド距離よりも情報拡散による変化を測定するフィッシャー・ラオ正則化が唯一の熱力学的最適正則化戦略であることを示している。
論文 参考訳(メタデータ) (2026-01-25T18:10:15Z) - The Procrustean Bed of Time Series: The Optimization Bias of Point-wise Loss [53.542743390809356]
本稿では,最適化バイアス(EOB)の期待に関する第一原理解析を提案する。
時間列が決定論的で構造化されるほど、ポイントワイドの損失関数によるバイアスがより厳しくなる。
本稿では,DFTとDWTの両原理を同時に実現する具体的ソリューションを提案する。
論文 参考訳(メタデータ) (2025-12-21T06:08:22Z) - Entropy-Reservoir Bregman Projection: An Information-Geometric Unification of Model Collapse [3.533187668612022]
本稿では,これらの現象を統一する情報幾何学的枠組みであるEntropyReser Bregman Projection- ERBPを提案する。
我々の理論は崩壊に必要な条件、(ii)非言語エントロピーフロアを保証する十分な条件、(iii)サンプルサイズに依存する閉形式率をもたらす。
論文 参考訳(メタデータ) (2025-12-16T19:50:03Z) - A Class of Accelerated Fixed-Point-Based Methods with Delayed Inexact Oracles and Its Applications [3.6997773420183866]
我々は,非拡張作用素の固定点を近似するために,遅延不正確なオラクルを用いた固定点ベースのフレームワークを開発する。
本手法はネステロフ加速法とクラスノセル・スキーマン(KM)反復法の両方を利用する。
論文 参考訳(メタデータ) (2025-12-15T17:06:22Z) - Latency and Ordering Effects in Online Decisions [0.0]
オンライン意思決定システムは遅延フィードバックと順序に敏感なダイナミクスの下で動作している。
ヘテロジニアスレイテンシ、非可換性、実装ギャップ効果を1つの下界ステートメントにパッケージ化する。
論文 参考訳(メタデータ) (2025-11-17T07:08:05Z) - INC: An Indirect Neural Corrector for Auto-Regressive Hybrid PDE Solvers [61.84396402100827]
本稿では,学習した補正を支配方程式に統合する間接ニューラルコレクタ(mathrmINC$)を提案する。
$mathrmINC$は、$t-1 + L$の順番でエラー増幅を減らし、$t$はタイムステップ、$L$はリプシッツ定数である。
大規模なベンチマークで$mathrmINC$をテストし、1Dカオスシステムから3D乱流まで、多くの異なる解法、神経バックボーン、テストケースをカバーした。
論文 参考訳(メタデータ) (2025-11-16T20:14:28Z) - Chebyshev Moment Regularization (CMR): Condition-Number Control with Moment Shaping [0.0]
textbfChebyshev Moment Regularization (CMR)を導入する。
CMRは、ログ条件プロキシ形状と内部をチェビシェフモーメントを介して、スペクトルエッジを共同で制御する。
これらの結果は、テキスト最適化によるスペクトル事前条件付け(英語版)をサポートし、安定的で正確な学習のために、よく条件付けられた状態に向けて直接ステアリングする。
論文 参考訳(メタデータ) (2025-10-17T06:54:41Z) - ERIS: An Energy-Guided Feature Disentanglement Framework for Out-of-Distribution Time Series Classification [51.07970070817353]
理想的な時系列分類(TSC)は不変表現をキャプチャできるべきである。
現在の手法は、真に普遍的な特徴を分離するために必要な意味的な方向性を欠いている。
本稿では,シフト・ロバストネス・フレームワークのためのエンドツーエンドのエネルギー規則化情報を提案する。
論文 参考訳(メタデータ) (2025-08-19T12:13:41Z) - Theoretical Framework for Tempered Fractional Gradient Descent: Application to Breast Cancer Classification [0.0]
本稿では,分数計算と指数的テンパリングを併用し,勾配に基づく学習を向上する新しい最適化フレームワークTFGDを紹介する。
TFGD は、履歴勾配を分数係数 $|w_j| = binomalphaj$ で重み付けし、テンパリングパラメータ $lambda$ で指数関数的に減衰するテンパリングメモリ機構を組み込むことで制限に対処する。
乳がんデータセットにおける実証的検証は、TFGDの優位性を示し、98.25%のテスト精度(vs.92.11%のSGD)と2$times$高速収束を達成した。
論文 参考訳(メタデータ) (2025-04-26T08:26:34Z) - Beyond likelihood ratio bias: Nested multi-time-scale stochastic approximation for likelihood-free parameter estimation [49.78792404811239]
確率分析形式が不明なシミュレーションベースモデルにおける推論について検討する。
我々は、スコアを同時に追跡し、パラメータ更新を駆動する比率のないネスト型マルチタイムスケール近似(SA)手法を用いる。
我々のアルゴリズムは、オリジナルのバイアス$Obig(sqrtfrac1Nbig)$を排除し、収束率を$Obig(beta_k+sqrtfracalpha_kNbig)$から加速できることを示す。
論文 参考訳(メタデータ) (2024-11-20T02:46:15Z) - Large Continual Instruction Assistant [59.585544987096974]
CIT(Continuous Instruction Tuning)は、大規模モデルにデータによる人間の意図データに従うよう指示するために用いられる。
既存の更新勾配は、CITプロセス中に前のデータセットのパフォーマンスを著しく損なうことになる。
本稿では,この課題に対処する汎用的な連続的命令チューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T11:24:59Z) - Towards Understanding the Generalizability of Delayed Stochastic Gradient Descent [63.43247232708004]
非同期で実行される勾配降下は、大規模機械学習モデルのトレーニングにおいて重要な役割を果たす。
既存の一般化誤差境界は悲観的であり、非同期遅延と一般化の相関を明らかにすることはできない。
我々の理論的結果は、非同期遅延は遅延SGDアルゴリズムの一般化誤差を低減することを示唆している。
論文 参考訳(メタデータ) (2023-08-18T10:00:27Z) - Generalization and Stability of Interpolating Neural Networks with
Minimal Width [37.908159361149835]
補間系における勾配によって訓練された浅層ニューラルネットワークの一般化と最適化について検討する。
トレーニング損失数は$m=Omega(log4 (n))$ニューロンとニューロンを最小化する。
m=Omega(log4 (n))$のニューロンと$Tapprox n$で、テスト損失のトレーニングを$tildeO (1/)$に制限します。
論文 参考訳(メタデータ) (2023-02-18T05:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。