論文の概要: Light Alignment Improves LLM Safety via Model Self-Reflection with a Single Neuron
- arxiv url: http://arxiv.org/abs/2602.02027v1
- Date: Mon, 02 Feb 2026 12:21:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.140058
- Title: Light Alignment Improves LLM Safety via Model Self-Reflection with a Single Neuron
- Title(参考訳): 光配向は単一ニューロンを用いたモデル自己反射によるLCMの安全性を改善する
- Authors: Sicheng Shen, Mingyang Lv, Han Shen, Jialin Wu, Binghao Wang, Zhou Yang, Guobin Shen, Dongcheng Zhao, Feifei Zhao, Yi Zeng,
- Abstract要約: 大規模言語モデル(LLM)の安全性は、その開発における基本的側面としてますます高まっている。
LLMの既存の安全アライメントは、主にポストトレーニング手法によって達成される。
本稿では,専門家モデルの低コストトレーニングのみを要し,単一のニューロンをゲーティング機構として利用する安全対応復号法を提案する。
- 参考スコア(独自算出の注目度): 28.570811283705556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The safety of large language models (LLMs) has increasingly emerged as a fundamental aspect of their development. Existing safety alignment for LLMs is predominantly achieved through post-training methods, which are computationally expensive and often fail to generalize well across different models. A small number of lightweight alignment approaches either rely heavily on prior-computed safety injections or depend excessively on the model's own capabilities, resulting in limited generalization and degraded efficiency and usability during generation. In this work, we propose a safety-aware decoding method that requires only low-cost training of an expert model and employs a single neuron as a gating mechanism. By effectively balancing the model's intrinsic capabilities with external guidance, our approach simultaneously preserves utility and enhances output safety. It demonstrates clear advantages in training overhead and generalization across model scales, offering a new perspective on lightweight alignment for the safe and practical deployment of large language models. Code: https://github.com/Beijing-AISI/NGSD.
- Abstract(参考訳): 大規模言語モデル(LLM)の安全性は、その開発の基本的側面としてますます高まっている。
LLMの既存の安全性アライメントは、計算コストが高く、様々なモデルにまたがる一般化に失敗するポストトレーニング手法によって主に達成される。
少数の軽量アライメントアプローチは、事前計算された安全注入に大きく依存するか、モデル自身の能力に過度に依存するかのいずれかであり、結果として一般化が限定され、世代間の効率と使いやすさが低下する。
本研究では,専門家モデルの低コストなトレーニングのみを要し,単一のニューロンをゲーティング機構として利用する安全対応復号法を提案する。
モデル固有の能力と外部ガイダンスを効果的にバランスさせることにより,本手法は実用性を同時に維持し,出力安全性を高める。
これは、大規模な言語モデルの安全で実用的なデプロイのための軽量なアライメントに関する新しい視点を提供する。
コード:https://github.com/Beijing-AISI/NGSD。
関連論文リスト
- Taxonomy-Adaptive Moderation Model with Robust Guardrails for Large Language Models [3.710103086278309]
大規模言語モデル(LLM)は通常、トレーニング後の段階で安全のために整列される。
ユーザに対してリスクをもたらす可能性のある,不適切なアウトプットを生成することも可能だ。
この課題は、モデル入力と出力の両方にわたって動作する堅牢なセーフガードの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2025-12-05T00:43:55Z) - Patching LLM Like Software: A Lightweight Method for Improving Safety Policy in Large Language Models [63.54707418559388]
ソフトウェアバージョンのような大型言語モデル(LLM)に対するパッチを提案する。
提案手法は,既存のモデルにコンパクトで学習可能なプレフィックスを前もって,迅速な修復を可能にする。
論文 参考訳(メタデータ) (2025-11-11T17:25:44Z) - SAID: Empowering Large Language Models with Self-Activating Internal Defense [23.654016424365906]
我々は,新たな非訓練型防衛パラダイム,自走型内国防衛(SAID)を導入する。
SAIDは、防衛タスクを外部修正から内部機能アクティベーションにリフレームする。
それは、有害な出力を減らすために最先端の防御を著しく上回っている。
論文 参考訳(メタデータ) (2025-10-23T02:07:54Z) - Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving [55.13109926181247]
離散拡散による安全な軌道生成のためのリフレクション機構を統合した学習ベースのフレームワークであるReflectDriveを紹介する。
我々のアプローチの中心は、勾配のない反復的な自己補正を行う、安全を意識した反射機構である。
本手法は目標条件付き軌道生成から始まり,マルチモーダル運転動作をモデル化する。
論文 参考訳(メタデータ) (2025-09-24T13:35:15Z) - Learning Safety Constraints for Large Language Models [41.95596134688853]
大規模言語モデル(LLM)は有害なアウトプットと敵の攻撃に対する脆弱性を通じて重大な安全リスクを生じさせる。
モデル表現空間において,複数の安全制約を直接学習し,適用する,安全のための幾何学的アプローチであるSaPを提案する。
我々は,ポリトープのファセットを介して安全かつ安全でない領域を識別し,安全でない出力の検出と修正を可能にするフレームワークを開発する。
論文 参考訳(メタデータ) (2025-05-30T10:30:24Z) - Representation Bending for Large Language Model Safety [27.842146980762934]
大きな言語モデル(LLM)は強力なツールとして登場したが、その固有の安全性のリスクは重大な課題を引き起こしている。
本稿では,LLMにおける有害行動の表現を根本的に破壊する新しい手法であるRepBendを紹介する。
RepBendは最先端のパフォーマンスを達成し、Circuit Breaker、RMU、NPOといった従来の手法よりも優れ、攻撃成功率を最大95%削減する。
論文 参考訳(メタデータ) (2025-04-02T09:47:01Z) - One-Shot Safety Alignment for Large Language Models via Optimal Dualization [64.52223677468861]
本稿では,制約付きアライメントを等価な非制約アライメント問題に還元する双対化の観点を提案する。
我々は、閉形式を持つ滑らかで凸な双対函数を事前に最適化する。
我々の戦略は、モデルベースと嗜好ベースの設定における2つの実用的なアルゴリズムに導かれる。
論文 参考訳(メタデータ) (2024-05-29T22:12:52Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。