論文の概要: Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs
- arxiv url: http://arxiv.org/abs/2510.03567v3
- Date: Thu, 16 Oct 2025 16:42:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 14:17:28.052688
- Title: Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs
- Title(参考訳): 機械学習はLLM上の制約付き介入を通して対向ロバスト性に遭遇する
- Authors: Fatmazohra Rezkellah, Ramzi Dakhmouche,
- Abstract要約: 我々は、機密情報の未学習と脱獄攻撃に対する堅牢性に対処する様々な制約付き最適化の定式化について検討する。
私たちが提案する最も単純なポイントワイド制約ベースの介入は、計算コストの低減を図りながら、最大最小の介入よりも優れたパフォーマンスをもたらす。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the increasing adoption of Large Language Models (LLMs), more customization is needed to ensure privacy-preserving and safe generation. We address this objective from two critical aspects: unlearning of sensitive information and robustness to jail-breaking attacks. We investigate various constrained optimization formulations that address both aspects in a \emph{unified manner}, by finding the smallest possible interventions on LLM weights that either make a given vocabulary set unreachable or embed the LLM with robustness to tailored attacks by shifting part of the weights to a \emph{safer} region. Beyond unifying two key properties, this approach contrasts with previous work in that it doesn't require an oracle classifier that is typically not available or represents a computational overhead. Surprisingly, we find that the simplest point-wise constraint-based intervention we propose leads to better performance than max-min interventions, while having a lower computational cost. Comparison against state-of-the-art defense methods demonstrates superior performance of the proposed approach.
- Abstract(参考訳): LLM(Large Language Models)の採用の増加に伴い、プライバシ保護と安全な生成を保証するために、より多くのカスタマイズが必要である。
この目的には、機密情報の未学習と、脱獄攻撃に対する堅牢性という2つの重要な側面から対処する。
与えられた語彙集合を到達不能にするか、その重みの一部を \emph{safer} 領域に移動させることにより、調整された攻撃に頑健な LLM を埋め込むことによって、LLM の重みに対する最小限の介入を見つけることにより、両面に対処する様々な制約付き最適化公式を考察する。
このアプローチは2つのキープロパティを統一する以外に、通常は利用できない、あるいは計算オーバーヘッドを表すオラクル分類器を必要としないという点で、以前の作業とは対照的である。
意外なことに、我々が提案する最も単純なポイントワイド制約ベースの介入は、計算コストの低減を図りながら、最大最小の介入よりも優れたパフォーマンスをもたらす。
最先端の防御手法との比較は,提案手法の優れた性能を示す。
関連論文リスト
- OptiLeak: Efficient Prompt Reconstruction via Reinforcement Learning in Multi-tenant LLM Services [14.316936569697738]
マルチテナント LLM サービスフレームワークは、効率を高めるために共有キーバリューキャッシュを広く採用している。
これにより、サイドチャネルの脆弱性が生成され、即座に漏洩攻撃が発生する。
我々は,迅速な再構築効率を最大化する強化学習強化フレームワークOptiLeakを提案する。
論文 参考訳(メタデータ) (2026-02-24T06:35:22Z) - PSM: Prompt Sensitivity Minimization via LLM-Guided Black-Box Optimization [0.0]
本稿では,シールド付加によるシステムプロンプト硬化のための新しいフレームワークを提案する。
我々は、LSM-as-optimizerを利用してShiELDの空間を探索し、敵攻撃の組から導かれる漏洩量を最小限に抑える。
最適化されたShielDは、包括的な抽出攻撃に対する急激なリークを著しく低減することを示した。
論文 参考訳(メタデータ) (2025-11-20T10:25:45Z) - SecInfer: Preventing Prompt Injection via Inference-time Scaling [54.21558811232143]
emphSecInferは,インセンジェンス時間スケーリングに基づくインジェクション攻撃に対する新しい防御法である。
SecInferは、既存のインジェクション攻撃と適応的なインジェクション攻撃の両方を効果的に軽減し、最先端の防御と既存の推論時間スケーリングアプローチより優れていることを示す。
論文 参考訳(メタデータ) (2025-09-29T16:00:41Z) - Constrained Entropic Unlearning: A Primal-Dual Framework for Large Language Models [14.321060805197874]
大規模言語モデル(LLM)が現実の環境でデプロイされるようになると、機密性、時代遅れ、あるいはプロプライエタリな情報を漏らさなくてはならなくなる。
既存の未学習の手法は、忘れと保持を規則化されたトレードオフとして定式化し、両方の目的を1つのスカラー化された損失に組み合わせる。
制約付き最適化問題として,LLMアンラーニングの新たな定式化を提案する。
論文 参考訳(メタデータ) (2025-06-05T17:55:23Z) - One-Shot Safety Alignment for Large Language Models via Optimal Dualization [64.52223677468861]
本稿では,制約付きアライメントを等価な非制約アライメント問題に還元する双対化の観点を提案する。
我々は、閉形式を持つ滑らかで凸な双対函数を事前に最適化する。
我々の戦略は、モデルベースと嗜好ベースの設定における2つの実用的なアルゴリズムに導かれる。
論文 参考訳(メタデータ) (2024-05-29T22:12:52Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。
本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。
LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T15:47:00Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。