論文の概要: SDGO: Self-Discrimination-Guided Optimization for Consistent Safety in Large Language Models
- arxiv url: http://arxiv.org/abs/2508.15648v1
- Date: Thu, 21 Aug 2025 15:26:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.38477
- Title: SDGO: Self-Discrimination-Guided Optimization for Consistent Safety in Large Language Models
- Title(参考訳): SDGO:大規模言語モデルにおける一貫性安全のための自己識別誘導最適化
- Authors: Peng Ding, Wen Sun, Dailin Li, Wei Zou, Jiaming Wang, Jiajun Chen, Shujian Huang,
- Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語処理タスクに優れるが、ジェイルブレイク攻撃には弱い。
本稿では,モデル固有の差別と生成能力の整合性を検討する。
我々の方法は、トレーニングフェーズ中に追加の注釈付きデータや外部モデルを必要としない。
- 参考スコア(独自算出の注目度): 59.217270662809696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) excel at various natural language processing tasks but remain vulnerable to jailbreaking attacks that induce harmful content generation. In this paper, we reveal a critical safety inconsistency: LLMs can more effectively identify harmful requests as discriminators than defend against them as generators. This insight inspires us to explore aligning the model's inherent discrimination and generation capabilities. To this end, we propose SDGO (Self-Discrimination-Guided Optimization), a reinforcement learning framework that leverages the model's own discrimination capabilities as a reward signal to enhance generation safety through iterative self-improvement. Our method does not require any additional annotated data or external models during the training phase. Extensive experiments demonstrate that SDGO significantly improves model safety compared to both prompt-based and training-based baselines while maintaining helpfulness on general benchmarks. By aligning LLMs' discrimination and generation capabilities, SDGO brings robust performance against out-of-distribution (OOD) jailbreaking attacks. This alignment achieves tighter coupling between these two capabilities, enabling the model's generation capability to be further enhanced with only a small amount of discriminative samples. Our code and datasets are available at https://github.com/NJUNLP/SDGO.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な自然言語処理タスクに優れるが、有害なコンテンツ生成を引き起こすジェイルブレイク攻撃に弱いままである。
本稿では, LLM は, 有害な要求をジェネレータとして防御するよりも, より効果的に識別することができることを明らかにする。
この洞察は、モデル固有の差別と生成能力の整合性を検討するきっかけになります。
そこで我々はSDGO(Self-Discrimination-Guided Optimization)を提案する。SDGOはモデル自身の識別能力を報奨信号として活用し,反復自己改善による生成安全性の向上を実現するための強化学習フレームワークである。
我々の方法は、トレーニングフェーズ中に追加の注釈付きデータや外部モデルを必要としない。
SDGOは、一般的なベンチマークで有用性を維持しながら、プロンプトベースのベースラインとトレーニングベースのベースラインの両方と比較して、モデル安全性を著しく向上することを示した。
LLMの差別と生成能力の整合によって、SDGOはアウト・オブ・ディストリビューション(OOD)のジェイルブレイク攻撃に対して堅牢なパフォーマンスをもたらす。
このアライメントはこれらの2つの機能間の密結合を達成し、少数の識別サンプルだけでモデルの生成能力をさらに強化することができる。
私たちのコードとデータセットはhttps://github.com/NJUNLP/SDGOで公開されています。
関連論文リスト
- Why Not Act on What You Know? Unleashing Safety Potential of LLMs via Self-Aware Guard Enhancement [48.50995874445193]
大規模言語モデル(LLM)は、様々なタスクにわたって印象的な機能を示しているが、細心の注意を払って構築されたジェイルブレイク攻撃には弱いままである。
SAGE(Self-Aware Guard Enhancement)は,LSMの強い安全識別性能と比較的弱い安全生成能力とを整合させる訓練不要防衛戦略である。
論文 参考訳(メタデータ) (2025-05-17T15:54:52Z) - Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? [83.53005932513155]
MLLM(Multi-modal large language model)は大きな進歩を遂げているが、その安全性は依然として限られている。
そこで我々は, 単純明快な拒絶文に代えて, 少数の良性命令追従データに対して, MLLMを微調整する手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T09:03:51Z) - A Generative Approach to LLM Harmfulness Detection with Special Red Flag Tokens [15.796683630119654]
有害なコンテンツが生成されたり、生成されそうになったらいつでも、レッドフラッグトークンをその応答に挿入するようにモデルを訓練することを提案する。
モデルが生成した分布にわずかに影響を与えながら有害性の概念を明示的に学習することを可能にする。
また、生成された各回答を評価し、トレーニング中に攻撃を実行することなく、敵のトレーニングと同様に堅牢性を提供する。
論文 参考訳(メタデータ) (2025-02-22T21:48:48Z) - Smoothed Embeddings for Robust Language Models [11.97873981355746]
大規模言語モデル(LLM)は、アライメントを抑え、有害な出力を誘導するジェイルブレイク攻撃に対して脆弱である。
本稿では,埋め込みベクトルにランダムノイズを付加し,各出力トークンの生成時にアグリゲーションを行うRESTAディフェンスを提案する。
本実験は,本手法がベースラインディフェンスと比較して,実用上のトレードオフよりも優れたロバスト性を実現することを示す。
論文 参考訳(メタデータ) (2025-01-27T20:57:26Z) - SEAS: Self-Evolving Adversarial Safety Optimization for Large Language Models [19.486685336959482]
大規模言語モデル(LLM)は能力と影響力を向上し続け、セキュリティを確保し、有害な出力を防ぐことが重要になっている。
これらの問題に対処するための有望なアプローチは、レッドチームのための敵のプロンプトを自動的に生成するトレーニングモデルである。
本稿では,モデル自体が生成したデータを活用することで,セキュリティを向上させるための最適化フレームワークであるmathbfStextelf-mathbfEtextvolving mathbfAtextdversarial mathbfStextafetyety mathbf(SEAS)について紹介する。
論文 参考訳(メタデータ) (2024-08-05T16:55:06Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - RelaxLoss: Defending Membership Inference Attacks without Losing Utility [68.48117818874155]
より達成可能な学習目標を持つ緩和された損失に基づく新しい学習フレームワークを提案する。
RelaxLossは、簡単な実装と無視可能なオーバーヘッドのメリットを加えた任意の分類モデルに適用できる。
当社のアプローチはMIAに対するレジリエンスの観点から,常に最先端の防御機構より優れています。
論文 参考訳(メタデータ) (2022-07-12T19:34:47Z) - Training GANs with Stronger Augmentations via Contrastive Discriminator [80.8216679195]
本稿では,gan判別器にコントラスト表現学習方式を導入する。
この「融合」により、識別者は訓練の不安定さを増すことなく、より強力な増強に対処できる。
実験の結果,contratd付きganはfidを一貫して改善し,データ拡張を組み込んだ他の手法と比較した。
論文 参考訳(メタデータ) (2021-03-17T16:04:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。