論文の概要: Towards Poisoning Robustness Certification for Natural Language Generation
- arxiv url: http://arxiv.org/abs/2602.09757v1
- Date: Tue, 10 Feb 2026 13:09:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.543134
- Title: Towards Poisoning Robustness Certification for Natural Language Generation
- Title(参考訳): 自然言語生成におけるロバスト性認証の廃止に向けて
- Authors: Mihnea Ghitu, Matthew Wicker,
- Abstract要約: 我々は2つのセキュリティ特性を定式化し、安定性(世代変更に対するロバスト性)と妥当性(世代におけるターゲットに対するロバスト性、世代における有害な変化)を定式化する。
我々は、特定の有害なクラス、トークン、フレーズを誘導するのに必要となる最小限の中毒予算を計算し、妥当性/標的攻撃を認証する最初のアルゴリズムであるTPA(Targeted Partition Aggregation)を紹介する。
実験的に、TPAの有効性をさまざまな設定で示す。 敵がデータセットの最大0.5%を変更したとき、エージェントツール呼び出しの妥当性を検証する。
- 参考スコア(独自算出の注目度): 5.534626267734823
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the reliability of natural language generation is critical for deploying foundation models in security-sensitive domains. While certified poisoning defenses provide provable robustness bounds for classification tasks, they are fundamentally ill-equipped for autoregressive generation: they cannot handle sequential predictions or the exponentially large output space of language models. To establish a framework for certified natural language generation, we formalize two security properties: stability (robustness to any change in generation) and validity (robustness to targeted, harmful changes in generation). We introduce Targeted Partition Aggregation (TPA), the first algorithm to certify validity/targeted attacks by computing the minimum poisoning budget needed to induce a specific harmful class, token, or phrase. Further, we extend TPA to provide tighter guarantees for multi-turn generations using mixed integer linear programming (MILP). Empirically, we demonstrate TPA's effectiveness across diverse settings including: certifying validity of agent tool-calling when adversaries modify up to 0.5% of the dataset and certifying 8-token stability horizons in preference-based alignment. Though inference-time latency remains an open challenge, our contributions enable certified deployment of language models in security-critical applications.
- Abstract(参考訳): 自然言語生成の信頼性を理解することは、セキュリティに敏感なドメインに基礎モデルをデプロイするために重要である。
認証された中毒防御は、分類タスクに対して証明可能な堅牢性境界を提供するが、それらは基本的に自己回帰生成に不適であり、逐次予測や言語モデルの指数関数的に大きな出力空間を処理できない。
認定された自然言語生成の枠組みを確立するために,安定性(世代の変化に対する悪影響)と妥当性(ターゲットに対する悪影響,世代における有害な変化)の2つのセキュリティ特性を定式化する。
我々は、特定の有害なクラス、トークン、フレーズを誘導するのに必要となる最小限の中毒予算を計算し、妥当性/標的攻撃を認証する最初のアルゴリズムであるTPA(Targeted Partition Aggregation)を紹介する。
さらに、混合整数線形プログラミング(MILP)を用いて、TPAを拡張し、マルチターン世代に対してより厳密な保証を提供する。
実験的に、TPAの有効性は、データセットの最大0.5%を変更した場合のエージェントツールコールの有効性の証明と、嗜好ベースのアライメントにおける8段階の安定性の保証など、さまざまな設定で実証されている。
推論時間のレイテンシは依然としてオープンな課題ですが、私たちのコントリビューションによって、セキュリティクリティカルなアプリケーションに言語モデルの認定されたデプロイが可能になります。
関連論文リスト
- STEAD: Robust Provably Secure Linguistic Steganography with Diffusion Language Model [71.35577462669856]
拡散言語モデル(DLM)を用いた頑健で確実な言語ステガノグラフィーを提案する。
ステガノグラフ抽出中に擬似ランダム誤り訂正や近傍探索補正を含む誤り訂正戦略を導入する。
論文 参考訳(メタデータ) (2026-01-21T08:58:12Z) - Steering Vision-Language Pre-trained Models for Incremental Face Presentation Attack Detection [62.89126207012712]
顔提示攻撃検出(PAD)は、スプーフィング戦術やドメインと戦うために漸進的な学習を要求する。
過去のデータ保持を禁止し、リハーサルフリーラーニング(RF-IL)を必要とするプライバシー規制
論文 参考訳(メタデータ) (2025-12-22T04:30:11Z) - ForgeDAN: An Evolutionary Framework for Jailbreaking Aligned Large Language Models [8.765213350762748]
ジェイルブレイク攻撃は 有害な出力を 引き出すためにアライメント・ガードをバイパスする
セマンティック・コヒーレントで高能率な対人プロンプトを生成するための新しいフレームワークであるForgeDANを提案する。
本評価は,従来のSOTAソリューションよりも優れた自然さとステルスを維持しつつ,高い脱獄率を達成することを示す。
論文 参考訳(メタデータ) (2025-11-17T16:19:21Z) - Qwen3Guard Technical Report [127.69960525219051]
Qwen3Guardは、多言語安全ガードレールモデルである。
生成的Qwen3Guardは、きめ細かい三級判定を可能にする命令追従タスクとして安全分類をキャストする。
Stream Qwen3Guardは、リアルタイム安全監視のためのトークンレベルの分類ヘッドを導入している。
論文 参考訳(メタデータ) (2025-10-16T04:00:18Z) - $φ^{\infty}$: Clause Purification, Embedding Realignment, and the Total Suppression of the Em Dash in Autoregressive Language Models [0.0]
自動回帰変換言語モデルにおいて,エムダッシュトークンがセマンティックドリフトを引き起こす重大な脆弱性を同定する。
本稿では,フィインフィニティ演算子とターゲット埋め込み行列を併用した記号節の浄化法を提案する。
論文 参考訳(メタデータ) (2025-06-22T18:27:39Z) - Language Models That Walk the Talk: A Framework for Formal Fairness Certificates [6.5301153208275675]
本研究は,トランスフォーマーに基づく言語モデルの堅牢性を証明するための総合的検証フレームワークを提案する。
我々は、性別に関する用語によって男女の公平さと一貫したアウトプットを確保することに重点を置いている。
我々は、この手法を毒性検出に拡張し、敵に操作された有害な入力が一貫して検出され、適切に検閲されるという正式な保証を提供する。
論文 参考訳(メタデータ) (2025-05-19T06:46:17Z) - Learning Natural Language Constraints for Safe Reinforcement Learning of Language Agents [13.63944785085617]
一般化可能なアライメントは、現実世界のNLPアプリケーションにLLM(Large Language Models)を安全にデプロイする上で、重要な課題である。
チューニング前にデータを最初にキュレートするパラダイムシフトに触発されて、安全な言語アライメントのための新しいフレームワークを導入しました。
制約付きマルコフ決定プロセス(CMDP)内のフレームワークを形式化し,テキストベースのナビゲーション環境を通じて検証する。
論文 参考訳(メタデータ) (2025-04-04T05:26:28Z) - Reformulation is All You Need: Addressing Malicious Text Features in DNNs [53.45564571192014]
本稿では,敵攻撃とバックドア攻撃の両方に対して有効な,統一的かつ適応的な防御フレームワークを提案する。
我々のフレームワークは、様々な悪意あるテキスト機能において、既存のサンプル指向の防御基準よりも優れています。
論文 参考訳(メタデータ) (2025-02-02T03:39:43Z) - Smoothed Embeddings for Robust Language Models [11.97873981355746]
大規模言語モデル(LLM)は、アライメントを抑え、有害な出力を誘導するジェイルブレイク攻撃に対して脆弱である。
本稿では,埋め込みベクトルにランダムノイズを付加し,各出力トークンの生成時にアグリゲーションを行うRESTAディフェンスを提案する。
本実験は,本手法がベースラインディフェンスと比較して,実用上のトレードオフよりも優れたロバスト性を実現することを示す。
論文 参考訳(メタデータ) (2025-01-27T20:57:26Z) - Defending Large Language Models against Jailbreak Attacks via Semantic
Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文 参考訳(メタデータ) (2024-02-25T20:36:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。