論文の概要: Sharp Spectral Thresholds for Logit Fixed Points
- arxiv url: http://arxiv.org/abs/2605.15651v1
- Date: Fri, 15 May 2026 06:11:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.188478
- Title: Sharp Spectral Thresholds for Logit Fixed Points
- Title(参考訳): ロジット固定点に対するシャープスペクトル閾値
- Authors: Tongxi Wang,
- Abstract要約: 古典理論は、安定な状態全体を見逃し、質的変化が真に起こる点を特定できないことを証明している。
本定理は,アフィンソフトマックスフィードバックシステムに対する安定性保証を拡張した,それまでの分岐前条件を満たすものである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Softmax feedback systems are a common mathematical core of entropy-regularized reinforcement learning, logit game dynamics, population choice, and mean-field variational updates. Their central stability question is simple: when does a self-reinforcing softmax system produce a unique and globally predictable outcome? Classical theory gives a conservative answer. By treating softmax as a unit-scale response, it certifies stability only in a strongly randomized regime. We prove that the classical approach misses an entire stable regime and does not identify the point at which the qualitative change truly occurs. For finite-dimensional affine logit systems, the sharp dimension-free Euclidean threshold is $$β\|ΠWΠ\|_{\mathcal T\to\mathcal T}<2,$$ rather than the previously used condition, which certifies stability only while the softmax system remains safely over-regularized. Our theorem fills the previously missing pre-bifurcation regime, extending stability guarantees for affine softmax feedback systems to reward-responsive yet globally predictable systems. It enlarges the certified stability boundary for these systems and identifies where the model genuinely undergoes a phase transition.
- Abstract(参考訳): ソフトマックスフィードバックシステムは、エントロピー規則化された強化学習、ロジットゲームダイナミクス、人口選択、平均場変動更新の一般的な数学的コアである。
彼らの中心的な安定性の問題は単純である: 自己強化型ソフトマックスシステムはいつ、ユニークかつグローバルに予測可能な結果をもたらすのか?
古典理論は保守的な答えを与える。
ソフトマックスを単位スケールの応答として扱うことにより、強いランダム化状態においてのみ安定性を証明できる。
古典的アプローチは、安定な状態全体を見逃し、質的変化が真に起こる点を特定できないことを証明している。
有限次元のアフィンロジット系では、鋭い次元自由ユークリッドしきい値は、以前に使用されていた条件よりも、$β\|/||_{\mathcal T\to\mathcal T}<2,$であり、ソフトマックス系は安全に過正規化されている間にのみ安定性を証明している。
この定理は,アフィンソフトマックスフィードバックシステムに対する安定性保証を,報奨応答型でグローバルに予測可能なシステムに拡張するものである。
これらのシステムに対する認証された安定性境界を拡大し、モデルが真に相転移する場所を特定する。
関連論文リスト
- Zeroth-Order Optimization at the Edge of Stability [59.54782674222443]
ゼロ階数(ZO)系の(平均二乗の)線形安定性を捉える明示的なステップサイズ条件を提供する。
以上の結果から,ZO法に特有の暗黙的な正則化効果が示され,大きなステップサイズが主にヘッセントレースを正則化することがわかった。
論文 参考訳(メタデータ) (2026-04-16T06:23:18Z) - Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models [52.48582333951919]
ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。
SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。
複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-01T12:56:10Z) - Position: Certifiable State Integrity in Cyber-Physical Systems -- Why Modular Sovereignty Solves the Plasticity-Stability Paradox [0.0]
最近の証拠は、微調整された時系列基盤モデルが、以前の政権における破滅的な、劣化するパフォーマンスを忘れてしまうことを示唆している。
この位置紙は、塑性安定性パラドックスはグローバルパラメータ更新によって完全には解決できないと主張している。
代わりに、モジュール・ソブリンティ・パラダイム(Modular Sovereignty paradigm)を提唱する。
論文 参考訳(メタデータ) (2026-01-29T04:10:58Z) - Stationary Reweighting Yields Local Convergence of Soft Fitted Q-Iteration [40.322273308230606]
そこで本研究では, 関数近似および分布シフトの下で, 適合Q-定数とそのエントロピー規則化された変種であるソフトFQIが不適切に振る舞うことを示す。
本稿では,現在の方針の定常分布を用いて,各回帰更新を重み付けする静止重み付きソフトFQIを紹介する。
解析の結果,ソフトマックス温度を徐々に下げることで,地球規模の収束が回復する可能性が示唆された。
論文 参考訳(メタデータ) (2025-12-30T00:58:35Z) - KCRL: Krasovskii-Constrained Reinforcement Learning with Guaranteed
Stability in Nonlinear Dynamical Systems [66.9461097311667]
形式的安定性を保証するモデルに基づく強化学習フレームワークを提案する。
提案手法は,特徴表現を用いて信頼区間までシステムダイナミクスを学習する。
我々は、KCRLが、基礎となる未知のシステムとの有限数の相互作用において安定化ポリシーを学ぶことが保証されていることを示す。
論文 参考訳(メタデータ) (2022-06-03T17:27:04Z) - Robustness of Quantum Systems Subject to Decoherence: Structured
Singular Value Analysis? [0.0]
構造化不確実性下での量子システムのロバストな性能問題について検討する。
閉(ハミルトニアン)量子系の特定の特徴は、その極が虚軸上にあることである。
論文 参考訳(メタデータ) (2021-10-11T16:01:11Z) - Stability and Identification of Random Asynchronous Linear
Time-Invariant Systems [81.02274958043883]
線形力学系の安定性に対するランダム化と非同期化の付加的な利点を示す。
未知のランダム化LTIシステムに対して,基礎となる力学を復元するための系統的同定手法を提案する。
論文 参考訳(メタデータ) (2020-12-08T02:00:04Z) - Toward Better Generalization Bounds with Locally Elastic Stability [41.7030651617752]
局所的な弾性安定性は、一様安定性に基づいて導出されたものよりも厳密な一般化境界を意味すると論じる。
我々は、有界支持ベクトルマシン、正規化最小二乗回帰、勾配降下の例を再考する。
論文 参考訳(メタデータ) (2020-10-27T02:04:53Z) - Fine-Grained Analysis of Stability and Generalization for Stochastic
Gradient Descent [55.85456985750134]
我々は,SGDの反復的リスクによって制御される新しい境界を開発する,平均モデル安定性と呼ばれる新しい安定性尺度を導入する。
これにより、最良のモデルの振舞いによって一般化境界が得られ、低雑音環境における最初の既知の高速境界が導かれる。
我々の知る限りでは、このことはSGDの微分不能な損失関数でさえも初めて知られている安定性と一般化を与える。
論文 参考訳(メタデータ) (2020-06-15T06:30:19Z) - On dissipative symplectic integration with applications to
gradient-based optimization [77.34726150561087]
本稿では,離散化を体系的に実現する幾何学的枠組みを提案する。
我々は、シンプレクティックな非保守的、特に散逸的なハミルトン系への一般化が、制御された誤差まで収束率を維持することができることを示す。
論文 参考訳(メタデータ) (2020-04-15T00:36:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。