Fugu-MT 論文翻訳(概要): GRP-Obliteration: Unaligning LLMs With a Single Unlabeled Prompt

論文の概要: GRP-Obliteration: Unaligning LLMs With a Single Unlabeled Prompt

arxiv url: http://arxiv.org/abs/2602.06258v1
Date: Thu, 05 Feb 2026 23:17:37 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-09 22:18:26.155549
Title: GRP-Obliteration: Unaligning LLMs With a Single Unlabeled Prompt
Title（参考訳）: GRP-Obliteration: ラベルなしのプロンプトでLLMをアンアライン化
Authors: Mark Russinovich, Yanan Cai, Keegan Hines, Giorgio Severi, Blake Bullwinkel, Ahmed Salem,
Abstract要約: ラベルのない1つのプロンプトは、確実に安全に整合したモデルに十分であることを示す。また, GRP-Oblitは, 従来の最先端技術よりも, 平均的な不整合性を実現していることを示す。
参考スコア（独自算出の注目度）: 6.311251343048617
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Safety alignment is only as robust as its weakest failure mode. Despite extensive work on safety post-training, it has been shown that models can be readily unaligned through post-deployment fine-tuning. However, these methods often require extensive data curation and degrade model utility. In this work, we extend the practical limits of unalignment by introducing GRP-Obliteration (GRP-Oblit), a method that uses Group Relative Policy Optimization (GRPO) to directly remove safety constraints from target models. We show that a single unlabeled prompt is sufficient to reliably unalign safety-aligned models while largely preserving their utility, and that GRP-Oblit achieves stronger unalignment on average than existing state-of-the-art techniques. Moreover, GRP-Oblit generalizes beyond language models and can also unalign diffusion-based image generation systems. We evaluate GRP-Oblit on six utility benchmarks and five safety benchmarks across fifteen 7-20B parameter models, spanning instruct and reasoning models, as well as dense and MoE architectures. The evaluated model families include GPT-OSS, distilled DeepSeek, Gemma, Llama, Ministral, and Qwen.
Abstract（参考訳）: 安全アライメントは、最も弱い障害モードと同じくらい堅牢である。トレーニング後の安全性に関する広範な研究にもかかわらず、モデルが展開後の微調整によって容易に不整合化できることが示されている。しかし、これらの手法は、広範囲のデータキュレーションとモデルユーティリティの劣化を必要とすることが多い。本研究は,GRP-Obliteration (GRP-Oblit) というグループ相対政策最適化(GRPO)を用いて,目標モデルから安全制約を直接除去する手法を導入することで,不整合の実用的限界を拡大する。 GRP-Oblitは,既存の最先端技術よりも高い非アライメントを達成できることを示す。さらに、GRP-Oblitは言語モデルを超えて一般化し、拡散に基づく画像生成システムも一様である。 GRP-Oblitを15の7-20Bパラメータモデルに対して6つのユーティリティベンチマークと5つの安全性ベンチマークで評価し、インストラクションと推論モデルにまたがる。評価されたモデルファミリーには、GPT-OSS、蒸留したDeepSeek、Gemma、Llama、Ministral、Qwenが含まれる。

関連論文リスト

BarrierSteer: LLM Safety via Learning Barrier Steering [83.12893815611052]
BarrierSteerは、学習した非線形安全性制約を直接モデルの潜在表現空間に埋め込むことで、安全性を形式化する新しいフレームワークである。 BarrierSteerは、敵の成功率を大幅に低下させ、安全でない世代を減少させ、既存の手法より優れていることを示す。
論文参考訳（メタデータ） (2026-02-23T18:19:46Z)
SimGR: Escaping the Pitfalls of Generative Decoding in LLM-based Recommendation [68.00727783181289]
推薦システムの中核的な目的は、パーソナライズされたレコメンデーションを可能にするために、アイテムよりもユーザの好みの分布を正確にモデル化することである。アイテムレベルの嗜好分布を推定する際に,既存の手法が必然的に系統的バイアスを生じさせることを観察する。 textbfSimply textbfGenerative textbfRecommendation (textbfSimGR)を提案する。
論文参考訳（メタデータ） (2026-02-08T07:26:52Z)
Steering Externalities: Benign Activation Steering Unintentionally Increases Jailbreak Risk for Large Language Models [62.16655896700062]
活性化ステアリングは大規模言語モデル(LLM)の有用性を高める技術である重要かつ過度に調査された安全リスクを無意識に導入することを示します。実験によると、これらの介入は強制乗算器として機能し、ジェイルブレイクに新たな脆弱性を発生させ、標準ベンチマークで攻撃成功率を80%以上向上させる。
論文参考訳（メタデータ） (2026-02-03T12:32:35Z)
Patching LLM Like Software: A Lightweight Method for Improving Safety Policy in Large Language Models [63.54707418559388]
ソフトウェアバージョンのような大型言語モデル(LLM)に対するパッチを提案する。提案手法は,既存のモデルにコンパクトで学習可能なプレフィックスを前もって,迅速な修復を可能にする。
論文参考訳（メタデータ） (2025-11-11T17:25:44Z)
DUAL-Bench: Measuring Over-Refusal and Robustness in Vision-Language Models [59.45605332033458]
安全メカニズムはバックファイアし、過剰な拒絶を引き起こし、モデルが過度に注意を払って良質な要求を減らします。既存のベンチマークは、視覚的モダリティの過剰な拒絶に体系的に対処していない。この設定は、命令が無害であるが付随する画像には有害な内容が含まれているというような、ユニークな課題をもたらす。
論文参考訳（メタデータ） (2025-10-12T23:21:34Z)
Constrained Decoding for Robotics Foundation Models [12.916330118607918]
本稿では,自動回帰ロボット基盤モデルのための制約付き復号化フレームワークであるSafeDecを紹介する。タスク固有の安全ルールはSignal Temporal Logic (STL) 公式として表現され、最小限のオーバーヘッドで推論時に強制される。提案手法は,実行時に仮定された動的条件下でのSTL仕様を,再トレーニングなしで確実に満たすものである。
論文参考訳（メタデータ） (2025-09-01T19:17:40Z)
Graph Representation-based Model Poisoning on Federated Large Language Models [3.5233863453805143]
フェデレートされた大規模言語モデル(FedLLMs)は、データのプライバシを保持しながら、無線ネットワーク内で強力な生成機能を実現する。本稿では,FedLLMのモデル中毒技術と既存の防御機構の最近の進歩について概説する。さらに、グラフ表現に基づくモデル中毒(GRMP)は、良質なクライアント勾配間の高次相関を利用して、悪意ある更新を正当なものと区別できないものにする新興攻撃パラダイムである。
論文参考訳（メタデータ） (2025-07-02T13:20:52Z)
Attribution-guided Pruning for Compression, Circuit Discovery, and Targeted Correction in LLMs [15.23174472320989]
大規模言語モデル(LLM)は多くの現代のAIアプリケーションの中心である。 eXplainable AI(XAI)の最近の研究は、解釈可能性がモデル圧縮を可能にすることを示唆している。
論文参考訳（メタデータ） (2025-06-16T17:38:36Z)
Normalized Attention Guidance: Universal Negative Guidance for Diffusion Models [57.20761595019967]
注意空間にL1をベースとした正規化・精細化を施した,効率的かつトレーニング不要な機構である正規化注意誘導(NAG)を提案する。 NAGは、CFGが忠実性を維持しながら崩壊する効果的な負のガイダンスを復元する。 NAGはアーキテクチャ(UNet、DiT)、サンプリングレシスタンス(複数ステップ、複数ステップ)、モダリティ(イメージ、ビデオ)をまたいで一般化する
論文参考訳（メタデータ） (2025-05-27T13:30:46Z)
GPG: A Simple and Strong Reinforcement Learning Baseline for Model Reasoning [17.544255491384046]
グループポリシーグラディエント(GPG)と呼ばれる最小主義的RLアプローチを提案する。従来の手法とは異なり、GAGは元のRL目標を直接最適化するので、損失関数のサロゲートが不要になる。本手法は補助的な技術や調整に頼ることなく優れた性能を実現する。
論文参考訳（メタデータ） (2025-04-03T12:53:41Z)
Optimizing Safe and Aligned Language Generation: A Multi-Objective GRPO Approach [2.8626097661711394]
ヒューマンフィードバックからの強化学習は、ステアリングモデルにおいて顕著な成功を収めてきたが、複雑で不安定である可能性がある。直接選好最適化(DPO)のような最近のアプローチは、好みに基づく微調整を単純化するが、バイアスや特定の目的のトレードオフをもたらす可能性がある。安全かつ整合性のある言語生成を実現するために,多ラベル報酬回帰モデルを用いたグループ相対政策最適化フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-26T05:50:33Z)
Model Tampering Attacks Enable More Rigorous Evaluations of LLM Capabilities [49.09703018511403]
大規模言語モデル(LLM)のリスクと能力の評価は、AIのリスク管理とガバナンスフレームワークにますます取り入れられている。現在、ほとんどのリスク評価は、システムから有害な振る舞いを誘発する入力を設計することで実施されている。本稿では,遅延活性化や重みへの修正が可能なモデル改ざん攻撃を用いたLCMの評価を提案する。
論文参考訳（メタデータ） (2025-02-03T18:59:16Z)
Constrained Model-based Reinforcement Learning with Robust Cross-Entropy Method [30.407700996710023]
本稿では,制約違反に対するスパースインジケータ信号を用いた制約/安全強化学習問題について検討する。本稿では,ニューラルネットワークアンサンブルモデルを用いて予測の不確実性を推定し,モデル予測制御を基本制御フレームワークとして利用する。その結果,本手法は現状のベースラインよりもはるかに少ない制約違反数でタスクを完了させることが判明した。
論文参考訳（メタデータ） (2020-10-15T18:19:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。