Fugu-MT 論文翻訳(概要): Superficial Safety Alignment Hypothesis

論文の概要: Superficial Safety Alignment Hypothesis

arxiv url: http://arxiv.org/abs/2410.10862v2
Date: Thu, 02 Oct 2025 16:15:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-03 16:59:19.477823
Title: Superficial Safety Alignment Hypothesis
Title（参考訳）: 表面安全アライメント仮説
Authors: Jianwei Li, Jung-Eun Kim,
Abstract要約: 本稿では,安全アライメントが安全でないモデルに正しい推論方向を選択することを示唆する,表層安全アライメント仮説(SSAH)を提案する。属性クリティカルなコンポーネントは,安全性クリティカルユニット(SCU),ユーティリティクリティカルユニット(UCU),コンプレックスユニット(CU),冗長ユニット(RU)の4種類に分類する。実験結果から, 微調整中に特定の安全クリティカル成分を凍結することで, 新たな作業に適応しながら, 安全性特性を維持できることが判明した。
参考スコア（独自算出の注目度）: 15.215130286922564
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: As large language models (LLMs) are overwhelmingly more and more integrated into various applications, ensuring they generate safe responses is a pressing need. Previous studies on alignment have largely focused on general instruction-following but have often overlooked the distinct properties of safety alignment, such as the brittleness of safety mechanisms. To bridge the gap, we propose the Superficial Safety Alignment Hypothesis (SSAH), which posits that safety alignment teaches an otherwise unsafe model to choose the correct reasoning direction - fulfill or refuse users' requests - interpreted as an implicit binary classification task. Through SSAH, we hypothesize that only a few essential components can establish safety guardrails in LLMs. We successfully identify four types of attribute-critical components: Safety Critical Unit (SCU), Utility Critical Unit (UCU), Complex Unit (CU), and Redundant Unit (RU). Our findings show that freezing certain safety-critical components during fine-tuning allows the model to retain its safety attributes while adapting to new tasks. Similarly, we show that leveraging redundant units in the pre-trained model as an "alignment budget" can effectively minimize the alignment tax while achieving the alignment goal. All considered, this paper concludes that the atomic functional unit for safety in LLMs is at the neuron level and underscores that safety alignment should not be complicated.
Abstract（参考訳）: 大規模言語モデル(LLM)は、様々なアプリケーションに圧倒的に統合されているため、安全なレスポンスを生成することが、非常に必要である。以前のアライメントの研究は、一般的な命令追跡に主に焦点を合わせてきたが、安全機構の脆さなど、安全性アライメントの独特な性質をしばしば見落としていた。このギャップを埋めるために、安全アライメントが安全でないモデルに正しい推論方向(ユーザの要求を満たすか拒否するか)を選択することを暗黙のバイナリ分類タスクとして解釈する、表在的安全アライメント仮説(SSAH)を提案する。 SSAHを通して,LLMの安全ガードレールを確立できるコンポーネントはごくわずかである,という仮説を立てる。安全臨界ユニット(SCU)、実用臨界ユニット(UCU)、複合ユニット(CU)、冗長ユニット(RU)の4種類の属性クリティカルコンポーネントの同定に成功した。実験結果から, 微調整中に特定の安全クリティカル成分を凍結することで, 新たな作業に適応しながら, 安全性特性を維持できることが判明した。同様に、事前訓練されたモデルにおける冗長な単位を「調整予算」として活用することで、アライメント目標を達成しつつ、アライメント税を効果的に最小化できることを示す。本研究は、LLMの安全性のための原子機能ユニットがニューロンレベルであり、安全アライメントが複雑でないことを裏付けるものである。

関連論文リスト

PoSafeNet: Safe Learning with Poset-Structured Neural Nets [49.854863600271614]
既存のアプローチは、しばしば複数の安全制約を均一に、または固定された優先命令によって強制し、実現不可能と不安定な振る舞いを引き起こす。我々は、この設定を擬似構造的安全性として定式化し、安全制約を部分的に順序づけられた集合としてモデル化し、安全構成を政策クラスの構造的特性として扱う。この定式化に基づいて、逐次クローズドフォームプロジェクションを介して安全性を強制する、識別可能な神経安全層であるPoSafeNetを提案する。
論文参考訳（メタデータ） (2026-01-29T22:03:32Z)
Attributing and Exploiting Safety Vectors through Global Optimization in Large Language Models [50.91504059485288]
本報告では,全頭部のグローバルな最適化により,安全クリティカルな注意点を同時に識別するフレームワークを提案する。我々は,アクティベーション・リマッチによって同定された安全ベクトルを利用する,新しい推論時ホワイトボックス・ジェイルブレイク法を開発した。
論文参考訳（メタデータ） (2026-01-22T09:32:43Z)
LSSF: Safety Alignment for Large Language Models through Low-Rank Safety Subspace Fusion [16.434293020863592]
大きな言語モデル(LLM)の安全性メカニズムは、有害なコンテンツのないデータセットの微調整でさえも、その安全性能力を損なう可能性があるため、顕著な脆弱性を示す。 LSSF, underline-Rank underlineSafety underlineSubspace underlineFusion。提案手法は,低ランクプロジェクション行列の構築により,LLMの安全性情報の低ランク特性を利用する。
論文参考訳（メタデータ） (2026-01-19T03:59:12Z)
Interpretable Safety Alignment via SAE-Constructed Low-Rank Subspace Adaptation [13.509767769174422]
大規模な言語モデルをトレーニングし、有害な要求を拒否するためには、安全性の調整が不可欠である。 Low-Rank Adaptation (LoRA) は、安全ベンチマークにおける完全な微調整と強化学習を一貫して過小評価している。このギャップに対処するため、SAILS (Safety Alignment via Interpretable Low-rank Subspace)を提案する。
論文参考訳（メタデータ） (2025-12-29T07:39:49Z)
EASE: Practical and Efficient Safety Alignment for Small Language Models [4.839980912290382]
小型言語モデル(SLM)は、エッジデバイスにますますデプロイされ、安全性の整合性は重要でありながら困難である。小型ランガグモデルに対する実用的で効率的な安全アライメントを実現するための新しいフレームワークであるEASEを提案する。
論文参考訳（メタデータ） (2025-11-09T19:46:54Z)
UpSafe$^\circ$C: Upcycling for Controllable Safety in Large Language Models [67.91151588917396]
大規模言語モデル(LLM)は、幅広いタスクで顕著な進歩を遂げているが、有害なコンテンツ生成やジェイルブレイク攻撃といった安全リスクに弱いままである。安全に配慮したリサイクルによるLCMの安全性向上のための統合フレームワークであるUpSafe$circ$Cを提案する。この結果から, 静的アライメントから動的, モジュール, 推論対応制御への移行という, LLMの安全性の新たな方向性が明らかになった。
論文参考訳（メタデータ） (2025-10-02T16:43:33Z)
Turning the Spell Around: Lightweight Alignment Amplification via Rank-One Safety Injection [47.347413305965006]
大規模言語モデル(LLM)における安全性の整合性は、しばしば有害な要求を拒否するために内部表現を仲介する。近年の研究では、これらの安全メカニズムは特定の表現方向を非難したり削除したりすることで回避可能であることが示されている。そこで本研究では,リファレンシャル・メディア・サブスペースへのアクティベーションを永久に操り,モデルの安全アライメントを向上する手法であるランクワン・セーフティ・インジェクション(ROSI)を提案する。
論文参考訳（メタデータ） (2025-08-28T13:22:33Z)
Should LLM Safety Be More Than Refusing Harmful Instructions? [6.5137518437747]
本稿では,Large Language Models (LLM) の長文分散(暗号化)テキストに対する振る舞いを体系的に評価する。 LLMの安全性を評価するための2次元フレームワークを提案する。暗号を復号する能力を持つモデルは、不正な一般化攻撃の影響を受けやすいことを実証する。
論文参考訳（メタデータ） (2025-06-03T05:00:12Z)
Shape it Up! Restoring LLM Safety during Finetuning [66.46166656543761]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。 STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文参考訳（メタデータ） (2025-05-22T18:05:16Z)
Almost Surely Safe Alignment of Large Language Models at Inference-Time [20.5164976103514]
高い能力を持つ大規模言語モデル(LLM)でさえ、バイアスや安全でない応答を発生させることができる。本稿では,新しい推論時間アライメント手法を提案する。我々は、マルコフ決定プロセスとして安全な推論時間応答をフレーミングすることでこれを達成している。
論文参考訳（メタデータ） (2025-02-03T09:59:32Z)
Internal Activation as the Polar Star for Steering Unsafe LLM Behavior [50.463399903987245]
SafeSwitchは、モデルの内部状態を監視し、利用することによって、安全でない出力を動的に制御するフレームワークである。実証実験の結果,SafeSwitchは安全性ベンチマークで80%以上の有害な出力を削減し,有効性を維持していることがわかった。
論文参考訳（メタデータ） (2025-02-03T04:23:33Z)
On the Role of Attention Heads in Large Language Model Safety [64.51534137177491]
大規模言語モデル(LLM)は、複数の言語タスクにおいて最先端のパフォーマンスを達成するが、それらの安全ガードレールを回避できる。モデル安全への個人的貢献を評価するため,マルチヘッド対応のための新しい指標として,安全ヘッドImPortant Score(Ships)を提案する。
論文参考訳（メタデータ） (2024-10-17T16:08:06Z)
Controllable Safety Alignment: Inference-Time Adaptation to Diverse Safety Requirements [46.79887158348167]
大規模言語モデル(LLM)の安全性アライメントに関する現在のパラダイムは、一大のアプローチに従っている。我々は,モデルの再トレーニングを伴わず,多様な安全要件に適応するフレームワークとして,制御可能な安全アライメント(CoSA)を提案する。
論文参考訳（メタデータ） (2024-10-11T16:38:01Z)
Safety Layers in Aligned Large Language Models: The Key to LLM Security [43.805905164456846]
内部パラメータは、悪意のないバックドアや通常のデータで微調整された場合、セキュリティの劣化に対して脆弱である。モデルの中心にある,悪意のあるクエリと通常のクエリを区別する上で重要な,連続的なレイヤの小さなセットを同定する。そこで本稿では,セキュリティの劣化に対処するために,安全性層の勾配を補正する新しいファインチューニング手法であるSPPFTを提案する。
論文参考訳（メタデータ） (2024-08-30T04:35:59Z)
Nothing in Excess: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
重大言語モデル(LLM)が悪意のある命令から脅威を守るためには、安全性の調整が不可欠である。近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文参考訳（メタデータ） (2024-08-21T10:01:34Z)
What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。これを用いて,3つのよく知られた安全微調整手法について検討する。
論文参考訳（メタデータ） (2024-07-14T16:12:57Z)
Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。 DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文参考訳（メタデータ） (2024-07-12T09:36:33Z)
Towards Comprehensive and Efficient Post Safety Alignment of Large Language Models via Safety Patching [77.36097118561057]
textscSafePatchingは包括的で効率的なPSAのための新しいフレームワークである。 textscSafePatchingはベースラインメソッドよりも包括的で効率的なPSAを実現する。
論文参考訳（メタデータ） (2024-05-22T16:51:07Z)
A safety realignment framework via subspace-oriented model fusion for large language models [22.588716190505963]
サブスペース指向モデル融合(SOMF)による安全性向上フレームワークを提案する。我々のアプローチは、各微調整されたモデルの重みから全てのタスクベクトルを遠ざけることから始まる。次に,これらのベクトル内の安全関連領域をサブスペースマスキング手法により同定する。
論文参考訳（メタデータ） (2024-05-15T03:04:05Z)
Assessing the Brittleness of Safety Alignment via Pruning and Low-Rank Modifications [69.13807233595455]
大きな言語モデル(LLM)は、その安全性メカニズムに固有の脆さを示す。本研究では, プルーニングと低ランク改造を利用した安全アライメントの脆性について検討した。安全クリティカル領域への変更が制限された場合でも,LSMは低コストの微調整攻撃に対して脆弱であることを示す。
論文参考訳（メタデータ） (2024-02-07T18:34:38Z)
SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文参考訳（メタデータ） (2024-02-07T17:33:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。