論文の概要: GRP-Obliteration: Unaligning LLMs With a Single Unlabeled Prompt
- arxiv url: http://arxiv.org/abs/2602.06258v1
- Date: Thu, 05 Feb 2026 23:17:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.155549
- Title: GRP-Obliteration: Unaligning LLMs With a Single Unlabeled Prompt
- Title(参考訳): GRP-Obliteration: ラベルなしのプロンプトでLLMをアンアライン化
- Authors: Mark Russinovich, Yanan Cai, Keegan Hines, Giorgio Severi, Blake Bullwinkel, Ahmed Salem,
- Abstract要約: ラベルのない1つのプロンプトは、確実に安全に整合したモデルに十分であることを示す。
また, GRP-Oblitは, 従来の最先端技術よりも, 平均的な不整合性を実現していることを示す。
- 参考スコア(独自算出の注目度): 6.311251343048617
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Safety alignment is only as robust as its weakest failure mode. Despite extensive work on safety post-training, it has been shown that models can be readily unaligned through post-deployment fine-tuning. However, these methods often require extensive data curation and degrade model utility. In this work, we extend the practical limits of unalignment by introducing GRP-Obliteration (GRP-Oblit), a method that uses Group Relative Policy Optimization (GRPO) to directly remove safety constraints from target models. We show that a single unlabeled prompt is sufficient to reliably unalign safety-aligned models while largely preserving their utility, and that GRP-Oblit achieves stronger unalignment on average than existing state-of-the-art techniques. Moreover, GRP-Oblit generalizes beyond language models and can also unalign diffusion-based image generation systems. We evaluate GRP-Oblit on six utility benchmarks and five safety benchmarks across fifteen 7-20B parameter models, spanning instruct and reasoning models, as well as dense and MoE architectures. The evaluated model families include GPT-OSS, distilled DeepSeek, Gemma, Llama, Ministral, and Qwen.
- Abstract(参考訳): 安全アライメントは、最も弱い障害モードと同じくらい堅牢である。
トレーニング後の安全性に関する広範な研究にもかかわらず、モデルが展開後の微調整によって容易に不整合化できることが示されている。
しかし、これらの手法は、広範囲のデータキュレーションとモデルユーティリティの劣化を必要とすることが多い。
本研究は,GRP-Obliteration (GRP-Oblit) というグループ相対政策最適化(GRPO)を用いて,目標モデルから安全制約を直接除去する手法を導入することで,不整合の実用的限界を拡大する。
GRP-Oblitは,既存の最先端技術よりも高い非アライメントを達成できることを示す。
さらに、GRP-Oblitは言語モデルを超えて一般化し、拡散に基づく画像生成システムも一様である。
GRP-Oblitを15の7-20Bパラメータモデルに対して6つのユーティリティベンチマークと5つの安全性ベンチマークで評価し、インストラクションと推論モデルにまたがる。
評価されたモデルファミリーには、GPT-OSS、蒸留したDeepSeek、Gemma、Llama、Ministral、Qwenが含まれる。
関連論文リスト
- Steering Externalities: Benign Activation Steering Unintentionally Increases Jailbreak Risk for Large Language Models [62.16655896700062]
活性化ステアリングは大規模言語モデル(LLM)の有用性を高める技術である
重要かつ過度に調査された安全リスクを無意識に導入することを示します。
実験によると、これらの介入は強制乗算器として機能し、ジェイルブレイクに新たな脆弱性を発生させ、標準ベンチマークで攻撃成功率を80%以上向上させる。
論文 参考訳(メタデータ) (2026-02-03T12:32:35Z) - DUAL-Bench: Measuring Over-Refusal and Robustness in Vision-Language Models [59.45605332033458]
安全メカニズムはバックファイアし、過剰な拒絶を引き起こし、モデルが過度に注意を払って良質な要求を減らします。
既存のベンチマークは、視覚的モダリティの過剰な拒絶に体系的に対処していない。
この設定は、命令が無害であるが付随する画像には有害な内容が含まれているというような、ユニークな課題をもたらす。
論文 参考訳(メタデータ) (2025-10-12T23:21:34Z) - Graph Representation-based Model Poisoning on Federated Large Language Models [3.5233863453805143]
フェデレートされた大規模言語モデル(FedLLMs)は、データのプライバシを保持しながら、無線ネットワーク内で強力な生成機能を実現する。
本稿では,FedLLMのモデル中毒技術と既存の防御機構の最近の進歩について概説する。
さらに、グラフ表現に基づくモデル中毒(GRMP)は、良質なクライアント勾配間の高次相関を利用して、悪意ある更新を正当なものと区別できないものにする新興攻撃パラダイムである。
論文 参考訳(メタデータ) (2025-07-02T13:20:52Z) - Attribution-guided Pruning for Compression, Circuit Discovery, and Targeted Correction in LLMs [15.23174472320989]
大規模言語モデル(LLM)は多くの現代のAIアプリケーションの中心である。
eXplainable AI(XAI)の最近の研究は、解釈可能性がモデル圧縮を可能にすることを示唆している。
論文 参考訳(メタデータ) (2025-06-16T17:38:36Z) - Normalized Attention Guidance: Universal Negative Guidance for Diffusion Models [57.20761595019967]
注意空間にL1をベースとした正規化・精細化を施した,効率的かつトレーニング不要な機構である正規化注意誘導(NAG)を提案する。
NAGは、CFGが忠実性を維持しながら崩壊する効果的な負のガイダンスを復元する。
NAGはアーキテクチャ(UNet、DiT)、サンプリングレシスタンス(複数ステップ、複数ステップ)、モダリティ(イメージ、ビデオ)をまたいで一般化する
論文 参考訳(メタデータ) (2025-05-27T13:30:46Z) - GPG: A Simple and Strong Reinforcement Learning Baseline for Model Reasoning [17.544255491384046]
グループポリシーグラディエント(GPG)と呼ばれる最小主義的RLアプローチを提案する。
従来の手法とは異なり、GAGは元のRL目標を直接最適化するので、損失関数のサロゲートが不要になる。
本手法は補助的な技術や調整に頼ることなく優れた性能を実現する。
論文 参考訳(メタデータ) (2025-04-03T12:53:41Z) - Optimizing Safe and Aligned Language Generation: A Multi-Objective GRPO Approach [2.8626097661711394]
ヒューマンフィードバックからの強化学習は、ステアリングモデルにおいて顕著な成功を収めてきたが、複雑で不安定である可能性がある。
直接選好最適化(DPO)のような最近のアプローチは、好みに基づく微調整を単純化するが、バイアスや特定の目的のトレードオフをもたらす可能性がある。
安全かつ整合性のある言語生成を実現するために,多ラベル報酬回帰モデルを用いたグループ相対政策最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-26T05:50:33Z) - Model Tampering Attacks Enable More Rigorous Evaluations of LLM Capabilities [49.09703018511403]
大規模言語モデル(LLM)のリスクと能力の評価は、AIのリスク管理とガバナンスフレームワークにますます取り入れられている。
現在、ほとんどのリスク評価は、システムから有害な振る舞いを誘発する入力を設計することで実施されている。
本稿では,遅延活性化や重みへの修正が可能なモデル改ざん攻撃を用いたLCMの評価を提案する。
論文 参考訳(メタデータ) (2025-02-03T18:59:16Z) - Constrained Model-based Reinforcement Learning with Robust Cross-Entropy
Method [30.407700996710023]
本稿では,制約違反に対するスパースインジケータ信号を用いた制約/安全強化学習問題について検討する。
本稿では,ニューラルネットワークアンサンブルモデルを用いて予測の不確実性を推定し,モデル予測制御を基本制御フレームワークとして利用する。
その結果,本手法は現状のベースラインよりもはるかに少ない制約違反数でタスクを完了させることが判明した。
論文 参考訳(メタデータ) (2020-10-15T18:19:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。