Fugu-MT 論文翻訳(概要): Limits of Convergence-Rate Control for Open-Weight Safety

論文の概要: Limits of Convergence-Rate Control for Open-Weight Safety

arxiv url: http://arxiv.org/abs/2602.18868v1
Date: Sat, 21 Feb 2026 15:32:27 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.367049
Title: Limits of Convergence-Rate Control for Open-Weight Safety
Title（参考訳）: オープンウェイト安全のための収束率制御の限界
Authors: Domenic Rosati, Xijie Zeng, Hong Huang, Sebastian Dionicio, Subhabrata Majumdar, Frank Rudzicz, Hassan Sajjad,
Abstract要約: 本研究では,非対角的設定における一階と二階の最適化を実証的かつ実証的に遅くするアルゴリズムを開発した。逆の設定では、幅広い収束率制御法の基本的限界を確立する。
参考スコア（独自算出の注目度）: 23.243652317091456
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Open-weight foundation models can be fine-tuned for harmful purposes after release, yet no existing training resistance methods provide theoretical guarantees. Treating these interventions as convergence-rate control problems allows us to connect optimization speed to the spectral structure of model weights. We leverage this insight to develop a novel understanding of convergence rate control through spectral reparameterization and derive an algorithm, SpecDef, that can both provably and empirically slow first- and second-order optimization in non-adversarial settings. In adversarial settings, we establish a fundamental limit on a broad class of convergence rate control methods including our own: an attacker with sufficient knowledge can restore fast convergence at a linear increase in model size. In order to overcome this limitation, future works will need to investigate methods that are not equivalent to controlling convergence rate.
Abstract（参考訳）: オープンウェイト基礎モデルはリリース後の有害な目的のために微調整することができるが、既存のトレーニング抵抗法は理論的保証を提供していない。これらの介入を収束速度制御問題として扱うことにより、最適化速度をモデル重みのスペクトル構造に結びつけることができる。我々はこの知見を活用し、スペクトル再パラメータ化による収束率制御の新たな理解を開拓し、確率的かつ実験的に非逆条件下での1次および2次最適化を遅くするアルゴリズムSpecDefを導出する。逆条件下では, モデルサイズが線形に増加すると, 十分な知識を持った攻撃者が高速収束を回復できるという, 広範囲の収束率制御法の基本的限界を確立する。この制限を克服するためには、将来の研究は収束率の制御と等価でない方法を調べる必要がある。

関連論文リスト

Near-Constant Strong Violation and Last-Iterate Convergence for Online CMDPs via Decaying Safety Margins [31.581870065866568]
制約付きマルコフ決定過程(CMDP)における安全なオンライン強化学習を,強い後悔と違反の指標の下で研究する。サブリニアの強い報酬を後悔させる既存の原始二重法は、強い制約違反の増大を招いたり、あるいは固有振動による平均点収束に制限されたりしている。本稿では,マルチ正規化探索(FlexDOME)アルゴリズムによるフレキシブルセーフティドメイン最適化を提案する。
論文参考訳（メタデータ） (2026-02-11T14:54:26Z)
Comparing and correcting robustness metrics for quantum optimal control [1.6927349660459692]
本稿では,隣接端点とトグリングフレームのアプローチにおける重要な数値的違いを示す,新しい体系的な研究を提案する。また、広く使われているロバストネスフレーム推定器に臨界離散化補正を導入する。提案手法は制御と忠実性の制約を一意に処理すると同時に,厳密な最適化をクリーンに分離する。
論文参考訳（メタデータ） (2026-02-10T22:44:16Z)
Improved Convergence Rates of Muon Optimizer for Nonconvex Optimization [7.2620484413601325]
我々は、直接的かつ単純化された解析により、ムオンに対するよりシャープな収束保証を確立する。その結果,より広範な問題設定を網羅しながら,より高速な収束率を実現することにより,既存の限界を改善することができた。
論文参考訳（メタデータ） (2026-01-27T09:32:46Z)
Verifying Closed-Loop Contractivity of Learning-Based Controllers via Partitioning [52.23804865017831]
本稿では,ニューラルネットワークによるパラメータ化を行う非線形制御系における閉ループ収縮の検証問題に対処する。我々は、対称メッツラー行列の優越的固有値が非正であることを確かめるために、閉ループの縮約性に対するトラクタブルでスケーラブルな十分条件を導出する。
論文参考訳（メタデータ） (2025-12-01T23:06:56Z)
Rectified Robust Policy Optimization for Model-Uncertain Constrained Reinforcement Learning without Strong Duality [53.525547349715595]
我々はRectified Robust Policy Optimization (RRPO) と呼ばれる新しいプライマリのみのアルゴリズムを提案する。 RRPOは双対の定式化に頼ることなく、主問題に直接作用する。我々は、最もよく知られた下界と一致する複雑性を持つ、ほぼ最適な実現可能なポリシーに収束することを示す。
論文参考訳（メタデータ） (2025-08-24T16:59:38Z)
One-Shot Safety Alignment for Large Language Models via Optimal Dualization [64.52223677468861]
本稿では,制約付きアライメントを等価な非制約アライメント問題に還元する双対化の観点を提案する。我々は、閉形式を持つ滑らかで凸な双対函数を事前に最適化する。我々の戦略は、モデルベースと嗜好ベースの設定における2つの実用的なアルゴリズムに導かれる。
論文参考訳（メタデータ） (2024-05-29T22:12:52Z)
C-Learner: Constrained Learning for Causal Inference [4.370964009390564]
本稿では,両世界の最適な重み付けを実現し,安定したプラグイン推定を実現する新しいデバイアス化手法を提案する。我々の制約学習フレームワークは、プラグイン量に対する一階誤差がゼロであるという制約の下で、最高のプラグイン推定器を解く。
論文参考訳（メタデータ） (2024-05-15T16:38:28Z)
Exploiting Diffusion Prior for Real-World Image Super-Resolution [75.5898357277047]
本稿では,事前学習したテキスト・画像拡散モデルにカプセル化された事前知識を視覚的超解像に活用するための新しいアプローチを提案する。時間認識エンコーダを用いることで、事前学習した合成モデルを変更することなく、有望な復元結果が得られる。
論文参考訳（メタデータ） (2023-05-11T17:55:25Z)
Acceleration Methods [57.202881673406324]
まず2次最適化問題を用いて加速法を2つ導入する。我々は、ネステロフの精巧な研究から始まる運動量法を詳細に論じる。我々は、ほぼ最適な収束率に達するための一連の簡単な手法である再起動スキームを議論することで結論付ける。
論文参考訳（メタデータ） (2021-01-23T17:58:25Z)
On The Verification of Neural ODEs with Stochastic Guarantees [14.490826225393096]
時間連続型ニューラルネットワークの新興クラスであるneural odesは,グローバル最適化問題の集合を解いて検証できることを示す。密なReachtubeを構築するための抽象化ベースのテクニックであるLagran Reachability(SLR)を紹介する。
論文参考訳（メタデータ） (2020-12-16T11:04:34Z)
On Lower Bounds for Standard and Robust Gaussian Process Bandit Optimization [55.937424268654645]
有界ノルムを持つ関数のブラックボックス最適化問題に対するアルゴリズム非依存な下界を考える。本稿では, 単純さ, 汎用性, エラー確率への依存性の向上など, 後悔の下位境界を導出するための新しい証明手法を提案する。
論文参考訳（メタデータ） (2020-08-20T03:48:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。