論文の概要: Preemptive Detection and Steering of LLM Misalignment via Latent Reachability
- arxiv url: http://arxiv.org/abs/2509.21528v1
- Date: Thu, 25 Sep 2025 20:15:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:53.978493
- Title: Preemptive Detection and Steering of LLM Misalignment via Latent Reachability
- Title(参考訳): 潜時到達性を利用したLCMミスアライメントのプリエンプティブ検出とステアリング
- Authors: Sathwik Karnik, Somil Bansal,
- Abstract要約: 大規模言語モデル(LLM)は現在、日常的なツールで広く普及しており、有害なコンテンツを生成する傾向について緊急の安全上の懸念を提起している。
我々は, LLM推論に制御理論安全ツールを提供する, 到達可能性に基づくフレームワークであるBRT-Alignを提案する。
- 参考スコア(独自算出の注目度): 8.01833277608166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are now ubiquitous in everyday tools, raising urgent safety concerns about their tendency to generate harmful content. The dominant safety approach -- reinforcement learning from human feedback (RLHF) -- effectively shapes model behavior during training but offers no safeguards at inference time, where unsafe continuations may still arise. We propose BRT-Align, a reachability-based framework that brings control-theoretic safety tools to LLM inference. BRT-Align models autoregressive generation as a dynamical system in latent space and learn a safety value function via backward reachability, estimating the worst-case evolution of a trajectory. This enables two complementary mechanisms: (1) a runtime monitor that forecasts unsafe completions several tokens in advance, and (2) a least-restrictive steering filter that minimally perturbs latent states to redirect generation away from unsafe regions. Experiments across multiple LLMs and toxicity benchmarks demonstrate that BRT-Align provides more accurate and earlier detection of unsafe continuations than baselines. Moreover, for LLM safety alignment, BRT-Align substantially reduces unsafe generations while preserving sentence diversity and coherence. Qualitative results further highlight emergent alignment properties: BRT-Align consistently produces responses that are less violent, less profane, less offensive, and less politically biased. Together, these findings demonstrate that reachability analysis provides a principled and practical foundation for inference-time LLM safety.
- Abstract(参考訳): 大規模言語モデル(LLM)は現在、日常的なツールで広く普及しており、有害なコンテンツを生成する傾向について緊急の安全上の懸念を提起している。
人間のフィードバックからの強化学習(RLHF)が主流の安全アプローチは、トレーニング中のモデル動作を効果的に形成するが、安全でない継続がまだ発生している可能性がある推論時に安全を保護しない。
我々は, LLM推論に制御理論安全ツールを提供する, 到達可能性に基づくフレームワークであるBRT-Alignを提案する。
BRT-Alignは、遅延空間における動的システムとしての自己回帰生成をモデル化し、後方到達性を通じて安全値関数を学習し、軌道の最悪の進化を推定する。
これにより,(1) 安全でないトークンを事前に予測する実行時モニタ,(2) 潜在状態を最小限に摂動させ,安全でない領域から生成をリダイレクトする最小限のステアリングフィルタの2つの補完機構が実現される。
複数のLSMと毒性ベンチマークの実験により、BRT-Alignはベースラインよりも安全でない継続をより正確に早期に検出できることを示した。
さらに、LLMの安全性確保のために、BRT-Alignは文の多様性とコヒーレンスを保ちながら、安全でない世代を著しく削減する。
BRT-Alignは、暴力的でない、挑発的でない、攻撃的でない、政治的偏見が少ない応答を一貫して生成します。
これらの結果から, リーチビリティ解析は, 推論時LLM安全性の原則的かつ実践的な基礎となることが示唆された。
関連論文リスト
- Anchoring Refusal Direction: Mitigating Safety Risks in Tuning via Projection Constraint [52.878820730054365]
インストラクションファインチューニング(IFT)は,大規模言語モデル(LLM)の能力向上のための効果的なポストトレーニング戦略として広く採用されている。
LLMの内部機構に関する最近の研究は、隠蔽状態における拒絶方向(r方向)を同定し、拒絶行動の制御において重要な役割を担っている。
このようなドリフトを緩和するため,提案手法では,各トレーニングサンプルの隠れ状態のr方向への投射の大きさを規則化する投射制約損失項を導入する。
論文 参考訳(メタデータ) (2025-09-08T15:24:33Z) - SafeLLM: Unlearning Harmful Outputs from Large Language Models against Jailbreak Attacks [29.963044242980345]
ジェイルブレイク攻撃は、大規模言語モデルの安全性に深刻な脅威をもたらす。
我々は,新しい非学習型防衛フレームワークであるSafeLLMを提案する。
SafeLLMは高い汎用性能を維持しながら攻撃成功率を大幅に低下させることを示す。
論文 参考訳(メタデータ) (2025-08-21T02:39:14Z) - Viability of Future Actions: Robust Safety in Reinforcement Learning via Entropy Regularization [47.30677525394649]
モデルレス強化学習における2つの確立された技術間の相互作用を解析する。
本研究では,制約付きRLにおけるエントロピー規則化が,将来の活動回数を最大化するために学習に偏りを生じさせることを示す。
エントロピー正則化とロバストネスの関連性は、さらなる実証的・理論的研究の道のりとして有望である。
論文 参考訳(メタデータ) (2025-06-12T16:34:19Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [65.41451412400609]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - On Almost Surely Safe Alignment of Large Language Models at Inference-Time [20.5164976103514]
安全応答をほぼ確実に生成することを目的とした,LLMに対する新しい推論時間アライメント手法を提案する。
我々は、安全制約の進化を追跡し、安全でない世代を動的に罰する安全状態を強化する。
我々は,潜在空間におけるMDPを十分に大きな罰則で解く際に,与えられたコストモデルに対して公式な安全保証を示す。
論文 参考訳(メタデータ) (2025-02-03T09:59:32Z) - SCANS: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
悪意のある命令から脅威を守るために、LLM(Large Language Models)には安全アライメントが不可欠である。
近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。
過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:01:34Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - State-Wise Safe Reinforcement Learning With Pixel Observations [12.338614299403305]
本稿では,未知の危険領域に対する安全性の制約を効率的にエンコードする,新しい画素オブザービングセーフなRLアルゴリズムを提案する。
共同学習の枠組みとして,画素観測から導出した低次元潜在空間を用いた潜在力学モデルの構築から着目する。
次に、潜時力学の上に潜時バリアのような機能を構築・学習し、同時にポリシー最適化を行い、それによって安全性と総リターンの両方を改善します。
論文 参考訳(メタデータ) (2023-11-03T20:32:30Z) - Lyapunov-based uncertainty-aware safe reinforcement learning [0.0]
InReinforcement Learning (RL)は、様々なシーケンシャルな意思決定タスクに対して最適なポリシーを学ぶ上で、有望なパフォーマンスを示している。
多くの現実世界のRL問題において、主な目的を最適化する以外に、エージェントは一定のレベルの安全性を満たすことが期待されている。
これらの制約に対処するために,リャプノフに基づく不確実性を考慮した安全なRLモデルを提案する。
論文 参考訳(メタデータ) (2021-07-29T13:08:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。