論文の概要: What Matters For Safety Alignment?
- arxiv url: http://arxiv.org/abs/2601.03868v1
- Date: Wed, 07 Jan 2026 12:31:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.1912
- Title: What Matters For Safety Alignment?
- Title(参考訳): 安全アライメントとは何か?
- Authors: Xing Li, Hui-Ling Zhen, Lihao Yin, Xianzhi Yu, Zhenhua Dong, Mingxuan Yuan,
- Abstract要約: 本稿では,AIシステムの安全アライメント能力に関する総合的研究について述べる。
本研究では,6つの重要な内在モデル特性と3つの外部攻撃手法の影響を系統的に検討し,比較した。
LRMs GPT-OSS-20B, Qwen3-Next-80B-A3B-Thinking, GPT-OSS-120Bを最も安全な3つのモデルとして同定した。
- 参考スコア(独自算出の注目度): 38.86339753409445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a comprehensive empirical study on the safety alignment capabilities. We evaluate what matters for safety alignment in LLMs and LRMs to provide essential insights for developing more secure and reliable AI systems. We systematically investigate and compare the influence of six critical intrinsic model characteristics and three external attack techniques. Our large-scale evaluation is conducted using 32 recent, popular LLMs and LRMs across thirteen distinct model families, spanning a parameter scale from 3B to 235B. The assessment leverages five established safety datasets and probes model vulnerabilities with 56 jailbreak techniques and four CoT attack strategies, resulting in 4.6M API calls. Our key empirical findings are fourfold. First, we identify the LRMs GPT-OSS-20B, Qwen3-Next-80B-A3B-Thinking, and GPT-OSS-120B as the top-three safest models, which substantiates the significant advantage of integrated reasoning and self-reflection mechanisms for robust safety alignment. Second, post-training and knowledge distillation may lead to a systematic degradation of safety alignment. We thus argue that safety must be treated as an explicit constraint or a core optimization objective during these stages, not merely subordinated to the pursuit of general capability. Third, we reveal a pronounced vulnerability: employing a CoT attack via a response prefix can elevate the attack success rate by 3.34x on average and from 0.6% to 96.3% for Seed-OSS-36B-Instruct. This critical finding underscores the safety risks inherent in text-completion interfaces and features that allow user-defined response prefixes in LLM services, highlighting an urgent need for architectural and deployment safeguards. Fourth, roleplay, prompt injection, and gradient-based search for adversarial prompts are the predominant methodologies for eliciting unaligned behaviors in modern models.
- Abstract(参考訳): 本稿では,安全アライメント機能に関する総合的研究について述べる。
我々は、より安全で信頼性の高いAIシステムを開発するための重要な洞察を提供するため、LLMとLRMにおける安全性の整合性について評価する。
本研究では,6つの重要な内在モデル特性と3つの外部攻撃手法の影響を系統的に検討し,比較した。
3Bから235Bまでのパラメータスケールにまたがる13種類のモデルファミリに対して,32種類のLLMとLEMを用いて大規模評価を行った。
このアセスメントは5つの確立された安全データセットを活用し、56のジェイルブレイク技術と4つのCoT攻撃戦略でモデル脆弱性を調査する。
私たちの重要な経験的発見は4倍です。
まず, LRMs GPT-OSS-20B, Qwen3-Next-80B-A3B-Thinking, GPT-OSS-120B を最上位3つの安全なモデルとして同定し, 堅牢な安全アライメントのための統合推論と自己回帰機構の利点を実証した。
第二に、訓練後および知識蒸留は、安全アライメントの体系的な劣化を引き起こす可能性がある。
したがって、これらの段階において、安全は明示的な制約またはコア最適化の目的として扱われるべきであり、単に一般的な能力の追求に従わなければならない。
第三に、反応プレフィックスによるCoT攻撃は、Seed-OSS-36B-Instructの攻撃成功率を平均3.34倍、0.6%から96.3%に向上させることができる。
この重要な発見は、LLMサービスでユーザ定義の応答プレフィックスを可能にするテキスト補完インターフェースや機能に固有の安全性のリスクを強調し、アーキテクチャとデプロイメントのセーフガードが緊急に必要であることを強調している。
第4、ロールプレイ、プロンプトインジェクション、直交プロンプトの勾配に基づく探索は、現代のモデルにおいて不整合な振る舞いを誘発する主要な手法である。
関連論文リスト
- SaFeR-VLM: Toward Safety-aware Fine-grained Reasoning in Multimodal Models [66.71948519280669]
MLRM(Multimodal Large Reasoning Models)は、クロスモーダルな推論を示すが、しばしば敵のプロンプトによる安全性のリスクを増幅する。
既存の防御は主に出力レベルで動作し、推論プロセスを制約せず、モデルは暗黙のリスクに置かれる。
4つのコンポーネントを統合し,表面レベルのフィルタリングを超える動的かつ解釈可能な安全性決定をサポートするSaFeR-VLMを提案する。
論文 参考訳(メタデータ) (2025-10-08T10:39:12Z) - Circumventing Safety Alignment in Large Language Models Through Embedding Space Toxicity Attenuation [13.971909819796762]
大規模言語モデル(LLM)は、医療、教育、サイバーセキュリティといった分野で大きな成功を収めている。
埋め込み空間中毒は、敵が入力データの内部意味表現を操作して安全アライメント機構をバイパスする微妙な攻撃ベクトルである。
本稿では,線形変換による埋め込み空間における毒性感受性次元の同定と減衰を行う新しいフレームワークETTAを提案する。
論文 参考訳(メタデータ) (2025-07-08T03:01:00Z) - Analysing Safety Risks in LLMs Fine-Tuned with Pseudo-Malicious Cyber Security Data [2.549390156222399]
大規模言語モデル(LLM)は、サイバーセキュリティを含む多くのアプリケーションドメインで使用されている。
近年の研究では、疑似悪意のあるサイバーセキュリティデータを用いた微調整LDMが安全性を著しく損なうことが示されている。
本稿では,異なる評価枠組みを用いて,これらの安全性リスクの包括的検証と拡張を行う。
論文 参考訳(メタデータ) (2025-05-15T05:22:53Z) - SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models [50.34706204154244]
推論能力の獲得は、引き継がれた安全アライメントを壊滅的に劣化させる。
特定のシナリオは、25倍の攻撃率を被る。
MLRMは、厳密な推論と問合せの安全結合にもかかわらず、初期段階の自己補正を示す。
論文 参考訳(メタデータ) (2025-04-09T06:53:23Z) - Safe RLHF-V: Safe Reinforcement Learning from Multi-modal Human Feedback [34.01716144973483]
汎用AIアシスタント構築にはMLLM(Multimodal large language model)が不可欠である。
MLLMの安全アライメントをどうやって確保すれば、望ましくない行動を防ぐことができるのか?
本研究では,安全なRLHF-Vを初めて探求する。
論文 参考訳(メタデータ) (2025-03-22T07:40:20Z) - Can Small Language Models Reliably Resist Jailbreak Attacks? A Comprehensive Evaluation [10.987263424166477]
大型言語モデル(LLM)の代替として、小型言語モデル(SLM)が登場した。
本稿では,SLMの脆弱性をジェイルブレイク攻撃に対して大規模な実証的研究を行った。
モデルのサイズ、モデルアーキテクチャ、トレーニングデータセット、トレーニングテクニックの4つの重要な要素を特定します。
論文 参考訳(メタデータ) (2025-03-09T08:47:16Z) - Responsible AI in Construction Safety: Systematic Evaluation of Large Language Models and Prompt Engineering [9.559203170987598]
建設は依然として最も危険な分野の1つである。
AIの最近の進歩、特にLarge Language Models (LLMs)は、職場の安全性を高めるための有望な機会を提供する。
本研究は、認定安全専門家委員会(BCSP)が実施する3つの基準試験において、広く使用されている2つのLCM(GPT-3.5とGPT-4o)の性能を評価する。
論文 参考訳(メタデータ) (2024-11-13T04:06:09Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。