論文の概要: Read the Scene, Not the Script: Outcome-Aware Safety for LLMs
- arxiv url: http://arxiv.org/abs/2510.04320v1
- Date: Sun, 05 Oct 2025 18:46:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.583661
- Title: Read the Scene, Not the Script: Outcome-Aware Safety for LLMs
- Title(参考訳): スクリプトではなくシーンを読む: LLMのアウトカム・アウェアの安全性
- Authors: Rui Wu, Yihao Quan, Zeru Shi, Zhenting Wang, Yanshu Li, Ruixiang Tang,
- Abstract要約: 現在のモデルでは、アクションと結果の結びつきが弱いのです。
この障害モードをコンシークエンス・ブラインドネス(Consequence-blindness)と定義する。
CS-Chain-4kで微調整されたモデルでは、セマンティックカモフラージュジェイルブレイクに対する明らかな利得を示す。
- 参考スコア(独自算出の注目度): 22.814397376238755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety-aligned Large Language Models (LLMs) still show two dominant failure modes: they are easily jailbroken, or they over-refuse harmless inputs that contain sensitive surface signals. We trace both to a common cause: current models reason weakly about links between actions and outcomes and over-rely on surface-form signals, lexical or stylistic cues that do not encode consequences. We define this failure mode as Consequence-blindness. To study consequence-blindness, we build a benchmark named CB-Bench covering four risk scenarios that vary whether semantic risk aligns with outcome risk, enabling evaluation under both matched and mismatched conditions which are often ignored by existing safety benchmarks. Mainstream models consistently fail to separate these risks and exhibit consequence-blindness, indicating that consequence-blindness is widespread and systematic. To mitigate consequence-blindness, we introduce CS-Chain-4k, a consequence-reasoning dataset for safety alignment. Models fine-tuned on CS-Chain-4k show clear gains against semantic-camouflage jailbreaks and reduce over-refusal on harmless inputs, while maintaining utility and generalization on other benchmarks. These results clarify the limits of current alignment, establish consequence-aware reasoning as a core alignment goal and provide a more practical and reproducible evaluation path.
- Abstract(参考訳): 安全に整合した大言語モデル(LLM)は、簡単にジェイルブレイクされるか、センシティブな表面信号を含む無害な入力を過度に排除する2つの主要な障害モードを示している。
現在のモデルは、アクションと結果のリンクを弱くし、結果をエンコードしない表面的な信号、語彙的またはスタイル的な手がかりを過度にリライズします。
この障害モードをコンシークエンス・ブラインドネス(Consequence-blindness)と定義する。
結果のブラインド性を調べるために,CB-Bench というベンチマークを構築し,意味的リスクが結果のリスクに合致するかどうかが異なる4つのリスクシナリオをカバーし,既存の安全ベンチマークでしばしば無視される一致条件と一致条件の両方で評価を可能にする。
主流モデルは常にこれらのリスクを分離し、結果の盲目を示すことに失敗し、結果の盲目は広く、体系的であることを示している。
結果のブラインドを緩和するために,安全アライメントのための結果推論データセットCS-Chain-4kを導入する。
CS-Chain-4kで微調整されたモデルでは、セマンティックカモフラージュのジェイルブレイクに対して明らかな利得を示し、無害な入力に対する過剰な拒絶を減らし、他のベンチマークでのユーティリティと一般化を維持している。
これらの結果は、電流アライメントの限界を明らかにし、コアアライメント目標として結果認識推論を確立し、より実用的で再現可能な評価パスを提供する。
関連論文リスト
- Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。
このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文 参考訳(メタデータ) (2026-02-06T12:24:26Z) - Character as a Latent Variable in Large Language Models: A Mechanistic Account of Emergent Misalignment and Conditional Safety Failures [70.48661957773449]
創発的ミスアライメント(英: Emergent Misalignment)とは、狭い範囲のデータに対する微調整された大きな言語モデルによって、広範囲に不整合な振る舞いが引き起こされる障害モードを指す。
複数のドメインやモデルファミリにまたがって、特定の文字レベルの配置を示すデータの微調整モデルは、誤操作よりもはるかに強く、転送可能な微調整を誘導する。
論文 参考訳(メタデータ) (2026-01-30T15:28:42Z) - How Does Prefix Matter in Reasoning Model Tuning? [57.69882799751655]
推論(数学)、コーディング、安全性、事実性の3つのコアモデル機能にまたがる3つのR1シリーズモデルを微調整します。
その結果,プレフィックス条件付きSFTでは安全性と推論性能が向上し,Safe@1の精度は最大で6%向上した。
論文 参考訳(メタデータ) (2026-01-04T18:04:23Z) - NegBLEURT Forest: Leveraging Inconsistencies for Detecting Jailbreak Attacks [8.416892421891761]
安全メカニズムをバイパスするために設計された脱獄攻撃は、倫理的ガイドラインに従っているにもかかわらず、LLMに有害または不適切なコンテンツを生成するよう促すことで深刻な脅威となる。
この研究は、成功と失敗の間のセマンティックな一貫性分析を導入し、否定を意識したスコアリングアプローチが意味のあるパターンをキャプチャすることを示した。
NegBLEURT Forestと呼ばれる新しい検出フレームワークが提案され、敵のプロンプトによって引き起こされる出力と期待される安全行動の間のアライメントの程度を評価する。
アイソレーションフォレストアルゴリズムを用いて異常応答を特定し、信頼性の高いジェイルブレイク検出を可能にする。
論文 参考訳(メタデータ) (2025-11-14T14:43:54Z) - DUAL-Bench: Measuring Over-Refusal and Robustness in Vision-Language Models [59.45605332033458]
安全メカニズムはバックファイアし、過剰な拒絶を引き起こし、モデルが過度に注意を払って良質な要求を減らします。
既存のベンチマークは、視覚的モダリティの過剰な拒絶に体系的に対処していない。
この設定は、命令が無害であるが付随する画像には有害な内容が含まれているというような、ユニークな課題をもたらす。
論文 参考訳(メタデータ) (2025-10-12T23:21:34Z) - Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning? [68.82210578851442]
メカニスティックな解釈可能性レンズによる推論モデルにおいて、なぜ安全アライメントが失敗するのかを考察する。
トークン位置における拒絶意図の追跡のための線形探索手法を用いて,textbfrefusal cliff と呼ばれる現象を発見した。
提案手法は,最大断崖を示す訓練例を識別し,推論モデルの安全性を向上する手法であるtextbfCliff-as-a-Judge を提案する。
論文 参考訳(メタデータ) (2025-10-07T15:32:59Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - The Rogue Scalpel: Activation Steering Compromises LLM Safety [11.402179030703188]
アクティベーションステアリング(Activation steering)は、推論中にモデルの隠れ状態に直接意味論的意味のあるベクトルを追加することによって、LCMの動作を制御する技術である。
ステアリングはモデルアライメントの保護を系統的に破り、有害な要求に従わせる。
論文 参考訳(メタデータ) (2025-09-26T08:49:47Z) - Fine-Tuning Lowers Safety and Disrupts Evaluation Consistency [17.57889200051214]
特定のドメインやタスクに対して汎用的な大規模言語モデル(LLM)を微調整することは,一般ユーザにとって日常的な手順となっている。
我々は、これを「攻撃」の良質な性質と相まって、微調整の広汎な取り込みによるLCMの臨界故障モードとみなす。
本実験では, 微調整装置に不連続な変化が生じても, 安全性評価の結果に驚くほどのばらつきが認められた。
論文 参考訳(メタデータ) (2025-06-20T17:57:12Z) - Why LLM Safety Guardrails Collapse After Fine-tuning: A Similarity Analysis Between Alignment and Fine-tuning Datasets [64.96967819446553]
本稿では,上流アライメントデータセットと下流微調整タスクの表現類似性のレンズによる安全ガードレールの劣化について検討する。
これらのデータセット間の高い類似性は、安全ガードレールを著しく弱め、モデルがジェイルブレイクの影響を受けやすくする。
これら2種類のデータセット間の類似性が低いと、より堅牢なモデルが得られ、有害度スコアが最大10.33%減少する。
論文 参考訳(メタデータ) (2025-06-05T17:59:55Z) - From Hallucinations to Jailbreaks: Rethinking the Vulnerability of Large Foundation Models [16.066501870239073]
大きな基礎モデル(LFM)は幻覚やジェイルブレイク攻撃の影響を受けやすい。
本稿では,ジェイルブレイクをトークンレベルの最適化および注意レベルの最適化として幻覚としてモデル化する統一理論フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-30T05:48:50Z) - SafetyNet: Detecting Harmful Outputs in LLMs by Modeling and Monitoring Deceptive Behaviors [2.07180164747172]
原子力や航空などのリスクの高い産業は、危険なシステム状態を検出するためにリアルタイムモニタリングを使用している。
教師なしアプローチを用いることで、有害なAI出力が発生する前に予測するリアルタイムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-20T12:49:58Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。