論文の概要: Adversarial Robustness in One-Stage Learning-to-Defer
- arxiv url: http://arxiv.org/abs/2510.10988v1
- Date: Mon, 13 Oct 2025 03:55:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.192455
- Title: Adversarial Robustness in One-Stage Learning-to-Defer
- Title(参考訳): 単段階学習における対向ロバスト性
- Authors: Yannis Montreuil, Letian Yu, Axel Carlier, Lai Xing Ng, Wei Tsang Ooi,
- Abstract要約: Learning-to-Defer(L2D)は、入力を予測者または外部の専門家にルーティングすることで、ハイブリッドな意思決定を可能にする。
有望ではあるが、L2Dは敵の摂動に対して非常に脆弱であり、予測を反転させるだけでなく、遅延決定を操作できる。
第一段階のL2Dでは, 分類と回帰の両方を網羅し, 対向ロバスト性に関する最初の枠組みを紹介した。
- 参考スコア(独自算出の注目度): 7.413102772934999
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Learning-to-Defer (L2D) enables hybrid decision-making by routing inputs either to a predictor or to external experts. While promising, L2D is highly vulnerable to adversarial perturbations, which can not only flip predictions but also manipulate deferral decisions. Prior robustness analyses focus solely on two-stage settings, leaving open the end-to-end (one-stage) case where predictor and allocation are trained jointly. We introduce the first framework for adversarial robustness in one-stage L2D, covering both classification and regression. Our approach formalizes attacks, proposes cost-sensitive adversarial surrogate losses, and establishes theoretical guarantees including $\mathcal{H}$, $(\mathcal{R }, \mathcal{F})$, and Bayes consistency. Experiments on benchmark datasets confirm that our methods improve robustness against untargeted and targeted attacks while preserving clean performance.
- Abstract(参考訳): Learning-to-Defer(L2D)は、入力を予測者または外部の専門家にルーティングすることで、ハイブリッドな意思決定を可能にする。
有望ではあるが、L2Dは敵の摂動に対して非常に脆弱であり、予測を反転させるだけでなく、遅延決定を操作できる。
以前のロバストネス分析は、予測とアロケーションを共同でトレーニングするエンドツーエンド(ワンステージ)のケースをオープンにして、2段階の設定にのみフォーカスする。
第一段階のL2Dでは, 分類と回帰の両方を網羅し, 対向ロバスト性に関する最初の枠組みを紹介した。
本手法では,攻撃を形式化し,コストに敏感な逆サロゲート損失を提案し,$\mathcal{H}$,$(\mathcal{R }, \mathcal{F})$,Bayes整合性などの理論的保証を確立する。
ベンチマークデータセットの実験では、クリーンなパフォーマンスを維持しながら、ターゲット外攻撃やターゲット外攻撃に対するロバスト性を改善することが確認された。
関連論文リスト
- Distributionally Robust Optimization with Adversarial Data Contamination [49.89480853499918]
凸リプシッツ損失関数を持つ一般化線形モデルに対するワッサーシュタイン-1 DRO 目標の最適化に焦点をあてる。
私たちの主な貢献は、データ汚染のトレーニングに対するロバストネスと分散シフトに対するロバストネスを統合した、新しいモデリングフレームワークです。
この研究は、データ汚染と分散シフトという2つの課題の下で学習するために、効率的な計算によって支援される最初の厳密な保証を確立する。
論文 参考訳(メタデータ) (2025-07-14T18:34:10Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [81.98466438000086]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - Adversarial Robustness in Two-Stage Learning-to-Defer: Algorithms and Guarantees [6.792743621449621]
2段階のL2D(Learning-to-Defer)は、各入力を固定されたメインモデルまたは複数のオフライン専門家のいずれかに割り当てることで、最適なタスクデリゲートを可能にする。
既存のL2Dフレームワークはクリーンな入力を前提としており、クエリ割り当てを操作できる敵の摂動に弱い。
2段階L2Dシステムにおける対向ロバスト性の最初の包括的研究について述べる。
論文 参考訳(メタデータ) (2025-02-03T03:44:35Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - Doubly Robust Instance-Reweighted Adversarial Training [107.40683655362285]
本稿では,2重のインスタンス再重み付き対向フレームワークを提案する。
KL偏差正規化損失関数の最適化により重みを求める。
提案手法は, 平均ロバスト性能において, 最先端のベースライン法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-01T06:16:18Z) - Boosting Adversarial Robustness using Feature Level Stochastic Smoothing [46.86097477465267]
敵の防御は、ディープニューラルネットワークの堅牢性を大幅に向上させた。
本研究では,ネットワーク予測における導入性に関する一般的な手法を提案する。
また、信頼性の低い予測を拒否する意思決定の円滑化にも活用する。
論文 参考訳(メタデータ) (2023-06-10T15:11:24Z) - Improving Adversarial Robustness to Sensitivity and Invariance Attacks
with Deep Metric Learning [80.21709045433096]
対向ロバスト性の標準的な方法は、サンプルを最小に摂動させることによって作られたサンプルに対して防御する枠組みを仮定する。
距離学習を用いて、最適輸送問題として逆正則化をフレーム化する。
予備的な結果から, 変分摂動の規則化は, 変分防御と敏感防御の両方を改善することが示唆された。
論文 参考訳(メタデータ) (2022-11-04T13:54:02Z) - Certifiably-Robust Federated Adversarial Learning via Randomized
Smoothing [16.528628447356496]
本稿では,データプライベートな分散学習を実現するために,スムーズな手法を連携型対人訓練に取り入れる。
実験の結果,このような先進的な対人学習フレームワークは,集中的な訓練によって訓練されたモデルと同じくらい頑健なモデルを提供できることがわかった。
論文 参考訳(メタデータ) (2021-03-30T02:19:45Z) - Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。
我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文 参考訳(メタデータ) (2020-10-26T04:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。