論文の概要: WARP: Guaranteed Inner-Layer Repair of NLP Transformers
- arxiv url: http://arxiv.org/abs/2604.00938v1
- Date: Wed, 01 Apr 2026 14:12:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:32.029983
- Title: WARP: Guaranteed Inner-Layer Repair of NLP Transformers
- Title(参考訳): WARP: NLPトランスのインナー層修復を保証
- Authors: Hsin-Ling Hsu, Min-Yu Chen, Nai-Chia Chen, Yan-Ru Chen, Yi-Ling Chang, Fang Yu,
- Abstract要約: 本稿では, Transformer モデルの最後のレイヤを超えて修復を拡張可能な制約ベースの修復フレームワークである WARP を提案する。
WARPは、対数ギャップの1次線形化から導かれる凸二次プログラムとして修復を定式化する。
WARP は軽度の仮定の下で全ての補修制約を満たす解に収束することを示す。
- 参考スコア(独自算出の注目度): 4.191577542171072
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based NLP models remain vulnerable to adversarial perturbations, yet existing repair methods face a fundamental trade-off: gradient-based approaches offer flexibility but lack verifiability and often overfit; methods that do provide repair guarantees are restricted to the final layer or small networks, significantly limiting the parameter search space available for repair. We present WARP (Weight-Adjusted Repair with Provability), a constraint-based repair framework that extends repair beyond the last layer of Transformer models. WARP formulates repair as a convex quadratic program derived from a first-order linearization of the logit gap, enabling tractable optimization over a high-dimensional parameter space. Under the condition that the first-order approximation holds, this formulation induces three per-sample guarantees: (i) a positive margin constraint ensuring correct classification on repaired inputs, (ii) preservation constraints over a designated remain set, and (iii) a certified robustness radius derived from Lipschitz continuity. To ensure feasibility across varying model architectures, we introduce a sensitivity-based preprocessing step that conditions the optimization landscape accordingly. We further show that the iterative optimization procedure converges to solutions satisfying all repair constraints under mild assumptions. Empirical evaluation on encoder-only Transformers with varying layer architectures validates that these guarantees hold in practice while improving robustness to adversarial inputs. Our results demonstrate that guaranteed, generalizable Transformer repair is achievable through principled constraint-based optimization.
- Abstract(参考訳): トランスフォーマーベースのNLPモデルは、敵の摂動に弱いままであるが、既存の修復手法は根本的なトレードオフに直面している: 勾配ベースのアプローチは柔軟性を提供するが、検証可能性がなく、しばしば過度に適合する; 修復保証を提供する手法は最終層または小さなネットワークに制限され、修理に利用可能なパラメータ検索スペースが大幅に制限される。
本稿では,Transformer モデルの最後のレイヤを超えて修復を拡張可能な制約ベースの修復フレームワークである WARP (Weight-Adjusted repair with Provability) を提案する。
WARPは、対数ギャップの1次線形化から導かれる凸二次プログラムとして修復を定式化し、高次元パラメータ空間上でのトラクタブルな最適化を可能にする。
一階近似が成り立つ条件の下で、この定式化は3つのサンプル単位の保証を誘導する。
一 修理された入力の正の分類を確保するための正の利得制約
二 指定されているものに対する保存上の制約が設定され、
(iii)リプシッツ連続性に由来する証明されたロバスト性半径。
様々なモデルアーキテクチャにおける実現可能性を確保するため、我々は、最適化ランドスケープを適切に設定する感度に基づく事前処理手順を導入する。
さらに、反復最適化手順は、軽度の仮定の下で全ての修理制約を満たす解に収束することを示す。
異なる層構造を持つエンコーダのみのトランスフォーマーの実証評価は、これらの保証が実際に保持され、対向入力に対する堅牢性を改善していることを示す。
この結果から, 保証された一般化可能なトランスフォーマー修復は, 原理的制約に基づく最適化によって実現可能であることを示す。
関連論文リスト
- SAHOO: Safeguarded Alignment for High-Order Optimization Objectives in Recursive Self-Improvement [16.505918019260964]
SAHOOは3つのセーフガードを通してドリフトを監視し制御するためのフレームワークである。
GDIは意味、語彙、構造、分布の計測を組み合わせた多信号検出器である。
制約保存チェックは、構文的正当性や非幻覚といった安全クリティカルな不変性を強制する。
論文 参考訳(メタデータ) (2026-03-06T14:44:51Z) - Score-Guided Proximal Projection: A Unified Geometric Framework for Rectified Flow Editing [1.0312968200748118]
Rectified Flowモデルは最先端の世代品質を実現するが、正確なタスクのためにそれらを制御することは依然として困難である。
現在のアプローチは「幾何学的ロック」に苦しむ逆法に基づくガイダンスに分岐する
Score-Guided Proximal Projectionは,決定論的最適化と縮尺サンプリングのギャップを埋める統一フレームワークである。
論文 参考訳(メタデータ) (2026-03-05T23:44:45Z) - A Constrained Optimization Perspective of Unrolled Transformers [77.12297732942095]
我々は、最適化降下アルゴリズムのように振る舞う変圧器の訓練のための制約付き最適化フレームワークを導入する。
拘束型変圧器は摂動の強靭性を実現し,より高い分布分布一般化を維持する。
論文 参考訳(メタデータ) (2026-01-24T02:12:39Z) - Rectified Robust Policy Optimization for Model-Uncertain Constrained Reinforcement Learning without Strong Duality [53.525547349715595]
我々はRectified Robust Policy Optimization (RRPO) と呼ばれる新しいプライマリのみのアルゴリズムを提案する。
RRPOは双対の定式化に頼ることなく、主問題に直接作用する。
我々は、最もよく知られた下界と一致する複雑性を持つ、ほぼ最適な実現可能なポリシーに収束することを示す。
論文 参考訳(メタデータ) (2025-08-24T16:59:38Z) - Advancing Reliable Test-Time Adaptation of Vision-Language Models under Visual Variations [67.35596444651037]
視覚言語モデル(VLM)は、素晴らしいゼロショット機能を示すが、ラベル付きデータが利用できない場合、下流タスクの分散シフトに苦慮する。
本稿では,信頼性を両面から高めるReliable Test-Time Adaptation (ReTA)法を提案する。
論文 参考訳(メタデータ) (2025-07-13T05:37:33Z) - Rectifying Conformity Scores for Better Conditional Coverage [75.73184036344908]
本稿では,分割共形予測フレームワーク内で信頼セットを生成する新しい手法を提案する。
本手法は,任意の適合度スコアのトレーニング可能な変換を行い,条件付き範囲を正確に確保しつつ,条件付き範囲を改善する。
論文 参考訳(メタデータ) (2025-02-22T19:54:14Z) - Double Duality: Variational Primal-Dual Policy Optimization for
Constrained Reinforcement Learning [132.7040981721302]
本研究では,訪問尺度の凸関数を最小化することを目的として,制約付き凸決定プロセス(MDP)について検討する。
制約付き凸MDPの設計アルゴリズムは、大きな状態空間を扱うなど、いくつかの課題に直面している。
論文 参考訳(メタデータ) (2024-02-16T16:35:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。