論文の概要: Annotating the Chain-of-Thought: A Behavior-Labeled Dataset for AI Safety
- arxiv url: http://arxiv.org/abs/2510.18154v1
- Date: Mon, 20 Oct 2025 23:12:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.719518
- Title: Annotating the Chain-of-Thought: A Behavior-Labeled Dataset for AI Safety
- Title(参考訳): AI安全性のための行動ラベル付きデータセット
- Authors: Antonio-Gabriel Chacón Menke, Phan Xuan Tan, Eiji Kamioka,
- Abstract要約: 本稿では,安全行動のアクティベーションに基づくモニタリングを可能にする文レベルのラベル付きデータセットを提案する。
本データセットは,安全性に関する懸念やユーザ意図に対する憶測などの安全行動の文レベルのアノテーションを用いた推論シーケンスを含む。
モデルアクティベーションにおける安全行動の検出とステアリングを行う表現を抽出することで,データセットの有用性を実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has highlighted the importance of monitoring chain-of-thought reasoning for AI safety; however, current approaches that analyze textual reasoning steps can miss subtle harmful patterns and may be circumvented by models that hide unsafe reasoning. We present a sentence-level labeled dataset that enables activation-based monitoring of safety behaviors during LLM reasoning. Our dataset contains reasoning sequences with sentence-level annotations of safety behaviors such as expression of safety concerns or speculation on user intent, which we use to extract steering vectors for detecting and influencing these behaviors within model activations. The dataset fills a key gap in safety research: while existing datasets label reasoning holistically, effective application of steering vectors for safety monitoring could be improved by identifying precisely when specific behaviors occur within reasoning chains. We demonstrate the dataset's utility by extracting representations that both detect and steer safety behaviors in model activations, showcasing the potential of activation-level techniques for improving safety oversight on reasoning. Content Warning: This paper discusses AI safety in the context of harmful prompts and may contain references to potentially harmful content.
- Abstract(参考訳): 最近の研究は、AIの安全性のために連鎖推論を監視することの重要性を強調している。しかし、テキスト推論のステップを分析する最近のアプローチは、微妙な有害なパターンを見逃し、安全でない推論を隠すモデルによって回避される可能性がある。
LLM推論中の安全行動のアクティベーションに基づくモニタリングを可能にする文レベルラベル付きデータセットを提案する。
本データセットは, モデルアクティベーション内でこれらの行動を検出し, 影響を及ぼすためのステアリングベクトルを抽出するために, 安全上の懸念やユーザ意図に対する憶測などの安全行動の文章レベルのアノテーションを用いた推論シーケンスを含む。
このデータセットは、安全性研究における重要なギャップを埋めている。既存のデータセットは、推論を論理的にラベル付けするが、安全監視のためのステアリングベクターの効果的な応用は、推論チェーン内で特定の振る舞いがいつ発生するかを正確に特定することで改善できる。
モデルアクティベーションにおける安全行動の検出とステアリングの両方の表現を抽出し,アクティベーションレベルの技術が推論の安全性の監視を改善する可能性を示すことによって,データセットの有用性を実証する。
コンテンツ警告: 有害なプロンプトの文脈でAIの安全性について議論し、潜在的に有害なコンテンツの参照を含む可能性がある。
関連論文リスト
- LatentGuard: Controllable Latent Steering for Robust Refusal of Attacks and Reliable Response Generation [4.29885665563186]
LATENTGUARDは、行動アライメントと教師付き潜在空間制御を組み合わせて、解釈可能で正確な安全操縦を行うフレームワークである。
本研究は, 実用性を損なうことなく, 安全性制御性と応答解釈性の両方を向上することを示す。
論文 参考訳(メタデータ) (2025-09-24T07:31:54Z) - SafeSteer: Interpretable Safety Steering with Refusal-Evasion in LLMs [7.120986296945107]
本稿では,大規模言語モデル(LLM)の出力を誘導するSafeSteerという手法について検討する。
テキストの品質,トピックの関連性,明示的な拒絶を保ちながら,安全ステアリングを高めるために,簡単な,勾配のない教師なしの手法を用いている。
論文 参考訳(メタデータ) (2025-06-01T01:19:37Z) - Shape it Up! Restoring LLM Safety during Finetuning [66.46166656543761]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - Advancing Neural Network Verification through Hierarchical Safety Abstract Interpretation [52.626086874715284]
我々は、安全でない出力の階層構造を検証する抽象的DNN検証と呼ばれる新しい問題定式化を導入する。
出力到達可能な集合に関する抽象的解釈と推論を活用することにより,形式的検証プロセスにおいて,複数の安全性レベルを評価することができる。
我々の貢献には、新しい抽象的安全性の定式化と既存のアプローチとの関係を理論的に探求することが含まれる。
論文 参考訳(メタデータ) (2025-05-08T13:29:46Z) - The dark deep side of DeepSeek: Fine-tuning attacks against the safety alignment of CoT-enabled models [10.524960491460945]
微調整攻撃は、潜在的に有害な振る舞いを明らかにするために、大きな言語モデルを利用することができる。
本稿では、微調整攻撃を受けた場合の思考の連鎖に基づく推論モデルDeepSeekの性能について検討する。
思考の連鎖(Chain of Thought)の脆弱性に光を当てて、微調整による攻撃と、その安全性と倫理的展開に影響を及ぼすことを目指している。
論文 参考訳(メタデータ) (2025-02-03T10:28:26Z) - SafetyAnalyst: Interpretable, Transparent, and Steerable Safety Moderation for AI Behavior [56.10557932893919]
我々は、新しいAI安全モデレーションフレームワークであるSafetyAnalystを紹介する。
AIの振る舞いを考えると、SafetyAnalystはチェーン・オブ・シークレット・推論を使用してその潜在的な結果を分析する。
効果を28個の完全に解釈可能な重みパラメータを使って有害度スコアに集約する。
論文 参考訳(メタデータ) (2024-10-22T03:38:37Z) - SCANS: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
悪意のある命令から脅威を守るために、LLM(Large Language Models)には安全アライメントが不可欠である。
近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。
過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:01:34Z) - A Flow-based Credibility Metric for Safety-critical Pedestrian Detection [16.663568842153065]
自動走行(AD)における安全の重要性
標準評価スキームは、十分な検出性能を議論するために安全に依存しない指標を利用する。
本稿では,歩行者拘束箱を対象とした新しい信頼性指標であるc-flowを提案する。
論文 参考訳(メタデータ) (2024-02-12T13:30:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。