論文の概要: Read the Scene, Not the Script: Outcome-Aware Safety for LLMs
- arxiv url: http://arxiv.org/abs/2510.04320v1
- Date: Sun, 05 Oct 2025 18:46:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.583661
- Title: Read the Scene, Not the Script: Outcome-Aware Safety for LLMs
- Title(参考訳): スクリプトではなくシーンを読む: LLMのアウトカム・アウェアの安全性
- Authors: Rui Wu, Yihao Quan, Zeru Shi, Zhenting Wang, Yanshu Li, Ruixiang Tang,
- Abstract要約: 現在のモデルでは、アクションと結果の結びつきが弱いのです。
この障害モードをコンシークエンス・ブラインドネス(Consequence-blindness)と定義する。
CS-Chain-4kで微調整されたモデルでは、セマンティックカモフラージュジェイルブレイクに対する明らかな利得を示す。
- 参考スコア(独自算出の注目度): 22.814397376238755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety-aligned Large Language Models (LLMs) still show two dominant failure modes: they are easily jailbroken, or they over-refuse harmless inputs that contain sensitive surface signals. We trace both to a common cause: current models reason weakly about links between actions and outcomes and over-rely on surface-form signals, lexical or stylistic cues that do not encode consequences. We define this failure mode as Consequence-blindness. To study consequence-blindness, we build a benchmark named CB-Bench covering four risk scenarios that vary whether semantic risk aligns with outcome risk, enabling evaluation under both matched and mismatched conditions which are often ignored by existing safety benchmarks. Mainstream models consistently fail to separate these risks and exhibit consequence-blindness, indicating that consequence-blindness is widespread and systematic. To mitigate consequence-blindness, we introduce CS-Chain-4k, a consequence-reasoning dataset for safety alignment. Models fine-tuned on CS-Chain-4k show clear gains against semantic-camouflage jailbreaks and reduce over-refusal on harmless inputs, while maintaining utility and generalization on other benchmarks. These results clarify the limits of current alignment, establish consequence-aware reasoning as a core alignment goal and provide a more practical and reproducible evaluation path.
- Abstract(参考訳): 安全に整合した大言語モデル(LLM)は、簡単にジェイルブレイクされるか、センシティブな表面信号を含む無害な入力を過度に排除する2つの主要な障害モードを示している。
現在のモデルは、アクションと結果のリンクを弱くし、結果をエンコードしない表面的な信号、語彙的またはスタイル的な手がかりを過度にリライズします。
この障害モードをコンシークエンス・ブラインドネス(Consequence-blindness)と定義する。
結果のブラインド性を調べるために,CB-Bench というベンチマークを構築し,意味的リスクが結果のリスクに合致するかどうかが異なる4つのリスクシナリオをカバーし,既存の安全ベンチマークでしばしば無視される一致条件と一致条件の両方で評価を可能にする。
主流モデルは常にこれらのリスクを分離し、結果の盲目を示すことに失敗し、結果の盲目は広く、体系的であることを示している。
結果のブラインドを緩和するために,安全アライメントのための結果推論データセットCS-Chain-4kを導入する。
CS-Chain-4kで微調整されたモデルでは、セマンティックカモフラージュのジェイルブレイクに対して明らかな利得を示し、無害な入力に対する過剰な拒絶を減らし、他のベンチマークでのユーティリティと一般化を維持している。
これらの結果は、電流アライメントの限界を明らかにし、コアアライメント目標として結果認識推論を確立し、より実用的で再現可能な評価パスを提供する。
関連論文リスト
- DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - The Rogue Scalpel: Activation Steering Compromises LLM Safety [11.402179030703188]
アクティベーションステアリング(Activation steering)は、推論中にモデルの隠れ状態に直接意味論的意味のあるベクトルを追加することによって、LCMの動作を制御する技術である。
ステアリングはモデルアライメントの保護を系統的に破り、有害な要求に従わせる。
論文 参考訳(メタデータ) (2025-09-26T08:49:47Z) - Fine-Tuning Lowers Safety and Disrupts Evaluation Consistency [17.57889200051214]
特定のドメインやタスクに対して汎用的な大規模言語モデル(LLM)を微調整することは,一般ユーザにとって日常的な手順となっている。
我々は、これを「攻撃」の良質な性質と相まって、微調整の広汎な取り込みによるLCMの臨界故障モードとみなす。
本実験では, 微調整装置に不連続な変化が生じても, 安全性評価の結果に驚くほどのばらつきが認められた。
論文 参考訳(メタデータ) (2025-06-20T17:57:12Z) - Why LLM Safety Guardrails Collapse After Fine-tuning: A Similarity Analysis Between Alignment and Fine-tuning Datasets [64.96967819446553]
本稿では,上流アライメントデータセットと下流微調整タスクの表現類似性のレンズによる安全ガードレールの劣化について検討する。
これらのデータセット間の高い類似性は、安全ガードレールを著しく弱め、モデルがジェイルブレイクの影響を受けやすくする。
これら2種類のデータセット間の類似性が低いと、より堅牢なモデルが得られ、有害度スコアが最大10.33%減少する。
論文 参考訳(メタデータ) (2025-06-05T17:59:55Z) - From Hallucinations to Jailbreaks: Rethinking the Vulnerability of Large Foundation Models [16.066501870239073]
大きな基礎モデル(LFM)は幻覚やジェイルブレイク攻撃の影響を受けやすい。
本稿では,ジェイルブレイクをトークンレベルの最適化および注意レベルの最適化として幻覚としてモデル化する統一理論フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-30T05:48:50Z) - SafetyNet: Detecting Harmful Outputs in LLMs by Modeling and Monitoring Deceptive Behaviors [2.07180164747172]
原子力や航空などのリスクの高い産業は、危険なシステム状態を検出するためにリアルタイムモニタリングを使用している。
教師なしアプローチを用いることで、有害なAI出力が発生する前に予測するリアルタイムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-20T12:49:58Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。