論文の概要: Limits of Convergence-Rate Control for Open-Weight Safety
- arxiv url: http://arxiv.org/abs/2602.18868v1
- Date: Sat, 21 Feb 2026 15:32:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.367049
- Title: Limits of Convergence-Rate Control for Open-Weight Safety
- Title(参考訳): オープンウェイト安全のための収束率制御の限界
- Authors: Domenic Rosati, Xijie Zeng, Hong Huang, Sebastian Dionicio, Subhabrata Majumdar, Frank Rudzicz, Hassan Sajjad,
- Abstract要約: 本研究では,非対角的設定における一階と二階の最適化を実証的かつ実証的に遅くするアルゴリズムを開発した。
逆の設定では、幅広い収束率制御法の基本的限界を確立する。
- 参考スコア(独自算出の注目度): 23.243652317091456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-weight foundation models can be fine-tuned for harmful purposes after release, yet no existing training resistance methods provide theoretical guarantees. Treating these interventions as convergence-rate control problems allows us to connect optimization speed to the spectral structure of model weights. We leverage this insight to develop a novel understanding of convergence rate control through spectral reparameterization and derive an algorithm, SpecDef, that can both provably and empirically slow first- and second-order optimization in non-adversarial settings. In adversarial settings, we establish a fundamental limit on a broad class of convergence rate control methods including our own: an attacker with sufficient knowledge can restore fast convergence at a linear increase in model size. In order to overcome this limitation, future works will need to investigate methods that are not equivalent to controlling convergence rate.
- Abstract(参考訳): オープンウェイト基礎モデルはリリース後の有害な目的のために微調整することができるが、既存のトレーニング抵抗法は理論的保証を提供していない。
これらの介入を収束速度制御問題として扱うことにより、最適化速度をモデル重みのスペクトル構造に結びつけることができる。
我々はこの知見を活用し、スペクトル再パラメータ化による収束率制御の新たな理解を開拓し、確率的かつ実験的に非逆条件下での1次および2次最適化を遅くするアルゴリズムSpecDefを導出する。
逆条件下では, モデルサイズが線形に増加すると, 十分な知識を持った攻撃者が高速収束を回復できるという, 広範囲の収束率制御法の基本的限界を確立する。
この制限を克服するためには、将来の研究は収束率の制御と等価でない方法を調べる必要がある。
関連論文リスト
- Comparing and correcting robustness metrics for quantum optimal control [1.6927349660459692]
本稿では,隣接端点とトグリングフレームのアプローチにおける重要な数値的違いを示す,新しい体系的な研究を提案する。
また、広く使われているロバストネスフレーム推定器に臨界離散化補正を導入する。
提案手法は制御と忠実性の制約を一意に処理すると同時に,厳密な最適化をクリーンに分離する。
論文 参考訳(メタデータ) (2026-02-10T22:44:16Z) - Improved Convergence Rates of Muon Optimizer for Nonconvex Optimization [7.2620484413601325]
我々は、直接的かつ単純化された解析により、ムオンに対するよりシャープな収束保証を確立する。
その結果,より広範な問題設定を網羅しながら,より高速な収束率を実現することにより,既存の限界を改善することができた。
論文 参考訳(メタデータ) (2026-01-27T09:32:46Z) - Verifying Closed-Loop Contractivity of Learning-Based Controllers via Partitioning [52.23804865017831]
本稿では,ニューラルネットワークによるパラメータ化を行う非線形制御系における閉ループ収縮の検証問題に対処する。
我々は、対称メッツラー行列の優越的固有値が非正であることを確かめるために、閉ループの縮約性に対するトラクタブルでスケーラブルな十分条件を導出する。
論文 参考訳(メタデータ) (2025-12-01T23:06:56Z) - Rectified Robust Policy Optimization for Model-Uncertain Constrained Reinforcement Learning without Strong Duality [53.525547349715595]
我々はRectified Robust Policy Optimization (RRPO) と呼ばれる新しいプライマリのみのアルゴリズムを提案する。
RRPOは双対の定式化に頼ることなく、主問題に直接作用する。
我々は、最もよく知られた下界と一致する複雑性を持つ、ほぼ最適な実現可能なポリシーに収束することを示す。
論文 参考訳(メタデータ) (2025-08-24T16:59:38Z) - One-Shot Safety Alignment for Large Language Models via Optimal Dualization [64.52223677468861]
本稿では,制約付きアライメントを等価な非制約アライメント問題に還元する双対化の観点を提案する。
我々は、閉形式を持つ滑らかで凸な双対函数を事前に最適化する。
我々の戦略は、モデルベースと嗜好ベースの設定における2つの実用的なアルゴリズムに導かれる。
論文 参考訳(メタデータ) (2024-05-29T22:12:52Z) - C-Learner: Constrained Learning for Causal Inference [4.370964009390564]
本稿では,両世界の最適な重み付けを実現し,安定したプラグイン推定を実現する新しいデバイアス化手法を提案する。
我々の制約学習フレームワークは、プラグイン量に対する一階誤差がゼロであるという制約の下で、最高のプラグイン推定器を解く。
論文 参考訳(メタデータ) (2024-05-15T16:38:28Z) - Acceleration Methods [57.202881673406324]
まず2次最適化問題を用いて加速法を2つ導入する。
我々は、ネステロフの精巧な研究から始まる運動量法を詳細に論じる。
我々は、ほぼ最適な収束率に達するための一連の簡単な手法である再起動スキームを議論することで結論付ける。
論文 参考訳(メタデータ) (2021-01-23T17:58:25Z) - On The Verification of Neural ODEs with Stochastic Guarantees [14.490826225393096]
時間連続型ニューラルネットワークの新興クラスであるneural odesは,グローバル最適化問題の集合を解いて検証できることを示す。
密なReachtubeを構築するための抽象化ベースのテクニックであるLagran Reachability(SLR)を紹介する。
論文 参考訳(メタデータ) (2020-12-16T11:04:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。