論文の概要: CluCERT: Certifying LLM Robustness via Clustering-Guided Denoising Smoothing
- arxiv url: http://arxiv.org/abs/2512.08967v1
- Date: Mon, 01 Dec 2025 21:13:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.232101
- Title: CluCERT: Certifying LLM Robustness via Clustering-Guided Denoising Smoothing
- Title(参考訳): CluCERT:Clustering-Guided Denoising SmoothingによるLCMロバスト性認証
- Authors: Zixia Wang, Gaojie Jin, Jia Hu, Ronghui Mu,
- Abstract要約: CluCERTは大規模言語モデル(LLM)の堅牢性を証明する新しいフレームワークである
本稿では,雑音の多いサンプルを減らし,意味のある摂動を保持するセマンティッククラスタリングフィルタを提案する。
また、コアセマンティクスを抽出する洗練されたモジュールと高速なシノニム置換戦略という2つのメカニズムを通じて計算効率を向上させる。
- 参考スコア(独自算出の注目度): 14.452742566473129
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Large Language Models (LLMs) have led to their widespread adoption in daily applications. Despite their impressive capabilities, they remain vulnerable to adversarial attacks, as even minor meaning-preserving changes such as synonym substitutions can lead to incorrect predictions. As a result, certifying the robustness of LLMs against such adversarial prompts is of vital importance. Existing approaches focused on word deletion or simple denoising strategies to achieve robustness certification. However, these methods face two critical limitations: (1) they yield loose robustness bounds due to the lack of semantic validation for perturbed outputs and (2) they suffer from high computational costs due to repeated sampling. To address these limitations, we propose CluCERT, a novel framework for certifying LLM robustness via clustering-guided denoising smoothing. Specifically, to achieve tighter certified bounds, we introduce a semantic clustering filter that reduces noisy samples and retains meaningful perturbations, supported by theoretical analysis. Furthermore, we enhance computational efficiency through two mechanisms: a refine module that extracts core semantics, and a fast synonym substitution strategy that accelerates the denoising process. Finally, we conduct extensive experiments on various downstream tasks and jailbreak defense scenarios. Experimental results demonstrate that our method outperforms existing certified approaches in both robustness bounds and computational efficiency.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、日々のアプリケーションで広く採用されている。
その印象的な能力にもかかわらず、敵の攻撃に弱いままであり、シノニム置換のような小さな意味を保った変化でさえ、誤った予測につながる可能性がある。
その結果,LSMの強靭性の証明は極めて重要であることがわかった。
既存のアプローチでは、ロバストネス認証を達成するための単語削除や単純なデノゲーション戦略に重点を置いていた。
しかし、これらの手法は、(1)摂動出力のセマンティック検証の欠如によるゆるやかなロバスト性境界、(2)繰り返しサンプリングによる計算コストの増大、の2つの限界に直面している。
これらの制約に対処するため,クラスタリング誘導型スムーシングによるLCMロバスト性認証フレームワークであるCluCERTを提案する。
具体的には、より厳密な認証境界を達成するために、雑音の多いサンプルを減らし、理論的解析によって支持される有意義な摂動を保持するセマンティッククラスタリングフィルタを導入する。
さらに、コアセマンティクスを抽出する洗練されたモジュールと、デノナイジングプロセスを加速する高速なシノニム置換戦略の2つのメカニズムにより、計算効率を向上させる。
最後に、様々な下流タスクとジェイルブレイク防御シナリオについて広範な実験を行う。
実験により,本手法は,ロバスト性境界と計算効率の両方において,既存の認証手法よりも優れていることが示された。
関連論文リスト
- Provably Robust Adaptation for Language-Empowered Foundation Models [39.0848735217206]
言語をベースとした基礎モデル(LeFM)は、視覚的(またはグラフ)機能をテキスト表現と整合させることでマルチモーダル学習を変革し、少数ショット学習のような強力な下流機能を実現する。
既存の防衛は、正式な保証を欠いている経験的戦略に依存しており、目に見えない適応的な攻撃に弱いままである。
本稿では,テキストと特徴埋め込みの両方を適応的なブレンディング機構で統合した,Language-empowered Few-shot Certification(textbfLeFCert)を提案する。
実験により、LeFCertは最先端のパフォーマンスを達成し、既存のベースラインと比較して、クリーンと認定の両方の精度を著しく向上することが示された。
論文 参考訳(メタデータ) (2025-10-09T13:01:57Z) - Toward Safer Diffusion Language Models: Discovery and Mitigation of Priming Vulnerability [5.650647159993238]
拡散言語モデル (DLMs) は反復的 denoising を通じてトークンを並列に生成する。
本稿では, DLM が反復的 denoising プロセスから生じる致命的な脆弱性を明らかにする。
汚染された中間状態から安全な応答を生成するためにモデルを訓練するDLMに適した新しい安全アライメント手法を提案する。
論文 参考訳(メタデータ) (2025-10-01T06:35:23Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - Combating Noisy Labels via Dynamic Connection Masking [31.78040205653134]
MLP(Multi-Layer Perceptron Networks)とKAN(Kolmogorov-Arnold Networks)のための動的接続マスキング(DCM)機構を提案する。
我々のアプローチは、より堅牢なディープネットワークを構築するために、様々なノイズロストトレーニング手法にシームレスに統合できる。
論文 参考訳(メタデータ) (2025-08-13T10:51:46Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [81.98466438000086]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - CW-BASS: Confidence-Weighted Boundary-Aware Learning for Semi-Supervised Semantic Segmentation [26.585985828583304]
半教師付きセマンティックセマンティックセグメンテーション(SSSS)は,ラベル付きサンプルを限定した大量のラベル付きデータを活用することで,パフォーマンスの向上を目指している。
既存の手法はしばしば結合に悩まされ、初期ラベル付きデータへの過度な依存は、最適以下の学習に繋がる。
SSSSの新しいフレームワークであるCW-BASSを提案する。
論文 参考訳(メタデータ) (2025-02-21T02:24:10Z) - Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。
本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。
LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T15:47:00Z) - SmoothMix: Training Confidence-calibrated Smoothed Classifiers for
Certified Robustness [61.212486108346695]
自己混合によるスムーズな分類器のロバスト性を制御するためのトレーニングスキームSmoothMixを提案する。
提案手法は, 厳密性に制限された原因として, 信頼性の低い, オフクラスに近いサンプルを効果的に同定する。
提案手法はスムーズな分類器の検証値である$ell$-robustnessを大幅に改善できることを示す。
論文 参考訳(メタデータ) (2021-11-17T18:20:59Z) - Certified Distributional Robustness on Smoothed Classifiers [27.006844966157317]
本稿では,ロバスト性証明として,入力分布に対する最悪の逆損失を提案する。
双対性と滑らか性を利用して、証明書のサロゲートとして容易に計算できる上限を与える。
論文 参考訳(メタデータ) (2020-10-21T13:22:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。