Fugu-MT 論文翻訳(概要): Safety Alignment Can Be Not Superficial With Explicit Safety Signals

論文の概要: Safety Alignment Can Be Not Superficial With Explicit Safety Signals

arxiv url: http://arxiv.org/abs/2505.17072v1
Date: Mon, 19 May 2025 20:40:46 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-26 18:08:33.525582
Title: Safety Alignment Can Be Not Superficial With Explicit Safety Signals
Title（参考訳）: 安全アライメントは明示的な安全信号で表面的ではない
Authors: Jianwei Li, Jung-Eng Kim,
Abstract要約: 大規模言語モデル(LLM)の安全性アライメントに関する最近の研究は、既存のアプローチがしばしば表面的に機能することを明らかにしている。既存のアライメントアプローチでは、アライメントプロセス中にモデルが暗黙的に安全関連推論タスクを学習できると考えられる。安全関連バイナリ分類タスクを明示的に導入し,その信号を注意と復号化戦略に統合することにより,この曖昧さを解消する。
参考スコア（独自算出の注目度）: 4.99563910067718
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Recent studies on the safety alignment of large language models (LLMs) have revealed that existing approaches often operate superficially, leaving models vulnerable to various adversarial attacks. Despite their significance, these studies generally fail to offer actionable solutions beyond data augmentation for achieving more robust safety mechanisms. This paper identifies a fundamental cause of this superficiality: existing alignment approaches often presume that models can implicitly learn a safety-related reasoning task during the alignment process, enabling them to refuse harmful requests. However, the learned safety signals are often diluted by other competing objectives, leading models to struggle with drawing a firm safety-conscious decision boundary when confronted with adversarial attacks. Based on this observation, by explicitly introducing a safety-related binary classification task and integrating its signals with our attention and decoding strategies, we eliminate this ambiguity and allow models to respond more responsibly to malicious queries. We emphasize that, with less than 0.2x overhead cost, our approach enables LLMs to assess the safety of both the query and the previously generated tokens at each necessary generating step. Extensive experiments demonstrate that our method significantly improves the resilience of LLMs against various adversarial attacks, offering a promising pathway toward more robust generative AI systems.
Abstract（参考訳）: 大規模言語モデル(LLM)の安全性アライメントに関する最近の研究は、既存のアプローチがしばしば表面的に動作し、様々な敵の攻撃に弱いモデルを残していることを明らかにしている。それらの重要性にもかかわらず、これらの研究は一般的に、より堅牢な安全メカニズムを達成するために、データ拡張以上の実行可能なソリューションを提供しない。既存のアライメントアプローチでは、アライメントプロセス中にモデルが暗黙的に安全関連推論タスクを学習し、有害な要求を拒否できると仮定される。しかし、学習された安全信号は、しばしば他の競合する目標によって希薄化され、敵の攻撃に直面すると、モデルがしっかりと安全を意識した決定境界を描くのに苦労する。この観察に基づき、安全関連バイナリ分類タスクを明示的に導入し、その信号と注意と復号化戦略を統合することにより、この曖昧さを排除し、モデルが悪意のあるクエリに対してより応答しやすくする。オーバーヘッドコストが0.2倍未満であれば、LLMは必要な生成ステップ毎にクエリと以前に生成されたトークンの両方の安全性を評価することができる。大規模な実験により,LLMの弾力性は著しく向上し,より堅牢な生成AIシステムへの道筋が得られた。

関連論文リスト

Self-Guard: Defending Large Reasoning Models via enhanced self-reflection [54.775612141528164]
Self-Guardは、大規模推論モデルのための軽量な安全防御フレームワークである。これは認識とコンプライアンスのギャップを埋め、モデルユーティリティを損なうことなく堅牢な安全性能を達成する。セルフガードは、さまざまな未知のリスクとさまざまなモデルスケールにまたがる強力な一般化を示す。
論文参考訳（メタデータ） (2026-01-31T13:06:11Z)
When Models Outthink Their Safety: Mitigating Self-Jailbreak in Large Reasoning Models with Chain-of-Guardrails [74.63933201261595]
大規模推論モデル(LRM)は複雑な推論タスクにおいて顕著な能力を示す。 LRMは、有害なコンテンツ生成やジェイルブレイク攻撃など、深刻な安全リスクに弱いままである。安全でない推論ステップを再構成またはバックトラックするトレーニングフレームワークであるChain-of-Guardrail(CoG)を提案する。
論文参考訳（メタデータ） (2025-10-24T09:32:25Z)
Risk-adaptive Activation Steering for Safe Multimodal Large Language Models [25.347491265330863]
現代のAIモデルの鍵となる課題の1つは、悪意のあるものを拒否しながら、クエリを無視するのに役立つ応答を提供することである。本稿では,安全クリティカルな画像領域への相互注意を強化するためにクエリを再構成することを提案する。評価されたリスクを使用して、アクティベーションを適応的に操り、反復的な出力調整のオーバーヘッドなしに安全で有用な応答を生成する。
論文参考訳（メタデータ） (2025-10-15T15:57:17Z)
AURA: Affordance-Understanding and Risk-aware Alignment Technique for Large Language Models [6.059681491089391]
AURAは論理的一貫性と安全性を認識した総合的、段階的な評価を提供する。本フレームワークは, 内省的自己批判, きめ細かいPRM評価, 適応型安全認識復号をシームレスに結合する。この研究は、アライメントに敏感なアプリケーションのための新しいベンチマークを設定することで、より安全で責任があり、コンテキストに敏感なAIに向けた重要なステップである。
論文参考訳（メタデータ） (2025-08-08T08:43:24Z)
ReGA: Representation-Guided Abstraction for Model-based Safeguarding of LLMs [0.9285458070502282]
大きな言語モデル(LLM)は様々なタスクで大きな成功を収めていますが、安全性とセキュリティに関する懸念が生まれています。機械学習モデルを解析し、監視するために、モデルに基づく分析は、ステートフルなディープニューラルネットワークにおいて顕著な可能性を示している。本稿では,表現誘導抽象化を用いたモデルベース分析フレームワークReGAを提案し,LLMを有害なプロンプトや世代に対して保護する。
論文参考訳（メタデータ） (2025-06-02T15:17:38Z)
Learning Safety Constraints for Large Language Models [41.95596134688853]
大規模言語モデル(LLM)は有害なアウトプットと敵の攻撃に対する脆弱性を通じて重大な安全リスクを生じさせる。モデル表現空間において,複数の安全制約を直接学習し,適用する,安全のための幾何学的アプローチであるSaPを提案する。我々は,ポリトープのファセットを介して安全かつ安全でない領域を識別し,安全でない出力の検出と修正を可能にするフレームワークを開発する。
論文参考訳（メタデータ） (2025-05-30T10:30:24Z)
Shape it Up! Restoring LLM Safety during Finetuning [66.46166656543761]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。 STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文参考訳（メタデータ） (2025-05-22T18:05:16Z)
SafeKey: Amplifying Aha-Moment Insights for Safety Reasoning [76.56522719330911]
大規模推論モデル(LRM)は、応答する前に明示的に推論する新しい世代パラダイムを導入する。 LRMは有害なクエリや敵の攻撃に対して大きな安全リスクをもたらす。キー文中の安全アハモーメントをより活性化するSafeKeyを提案する。
論文参考訳（メタデータ） (2025-05-22T03:46:03Z)
Representation Bending for Large Language Model Safety [27.842146980762934]
大きな言語モデル(LLM)は強力なツールとして登場したが、その固有の安全性のリスクは重大な課題を引き起こしている。本稿では,LLMにおける有害行動の表現を根本的に破壊する新しい手法であるRepBendを紹介する。 RepBendは最先端のパフォーマンスを達成し、Circuit Breaker、RMU、NPOといった従来の手法よりも優れ、攻撃成功率を最大95%削減する。
論文参考訳（メタデータ） (2025-04-02T09:47:01Z)
Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking [54.10710423370126]
本稿では,大規模言語モデルの生成プロセスに安全性を考慮した推論機構を統合する訓練パラダイムであるReasoning-to-Defend(R2D)を提案する。 CPOは、与えられた対話の安全性に対するモデルの認識を高める。実験によると、R2Dは様々な攻撃を効果的に軽減し、元の性能を維持しながら全体の安全性を向上させる。
論文参考訳（メタデータ） (2025-02-18T15:48:46Z)
SCANS: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
悪意のある命令から脅威を守るために、LLM(Large Language Models)には安全アライメントが不可欠である。近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文参考訳（メタデータ） (2024-08-21T10:01:34Z)
Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。 DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文参考訳（メタデータ） (2024-07-12T09:36:33Z)
On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文参考訳（メタデータ） (2024-01-31T17:28:24Z)
The Art of Defending: A Systematic Evaluation and Analysis of LLM Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文参考訳（メタデータ） (2023-12-30T17:37:06Z)
Safeguarded Progress in Reinforcement Learning: Safe Bayesian Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文参考訳（メタデータ） (2023-12-18T16:09:43Z)
Lyapunov-based uncertainty-aware safe reinforcement learning [0.0]
InReinforcement Learning (RL)は、様々なシーケンシャルな意思決定タスクに対して最適なポリシーを学ぶ上で、有望なパフォーマンスを示している。多くの現実世界のRL問題において、主な目的を最適化する以外に、エージェントは一定のレベルの安全性を満たすことが期待されている。これらの制約に対処するために,リャプノフに基づく不確実性を考慮した安全なRLモデルを提案する。
論文参考訳（メタデータ） (2021-07-29T13:08:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。