論文の概要: Is Reasoning Capability Enough for Safety in Long-Context Language Models?
- arxiv url: http://arxiv.org/abs/2602.08874v1
- Date: Mon, 09 Feb 2026 16:35:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.367973
- Title: Is Reasoning Capability Enough for Safety in Long-Context Language Models?
- Title(参考訳): ロングコンテキスト言語モデルにおける安全のための推論能力は十分か?
- Authors: Yu Fu, Haz Sameen Shahgir, Huanli Gong, Zhipeng Wei, N. Benjamin Erichson, Yue Dong,
- Abstract要約: 仮説は、モデルが明示されていない場合でも有害な意図を認識するのを助けることで、より強力な推論能力は安全性を向上させるべきであるというものである。
我々はこの仮説を、有害な意図が暗黙的であり、推論によって推論されなければならない長いコンテキスト設定で検証する。
有害なクエリを不完全な断片に分解し、長いコンテキストに分散する新たな脅威モデルである構成推論攻撃を導入する。
- 参考スコア(独自算出の注目度): 19.70162650196862
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) increasingly combine long-context processing with advanced reasoning, enabling them to retrieve and synthesize information distributed across tens of thousands of tokens. A hypothesis is that stronger reasoning capability should improve safety by helping models recognize harmful intent even when it is not stated explicitly. We test this hypothesis in long-context settings where harmful intent is implicit and must be inferred through reasoning, and find that it does not hold. We introduce compositional reasoning attacks, a new threat model in which a harmful query is decomposed into incomplete fragments that scattered throughout a long context. The model is then prompted with a neutral reasoning query that induces retrieval and synthesis, causing the harmful intent to emerge only after composition. Evaluating 14 frontier LLMs on contexts up to 64k tokens, we uncover three findings: (1) models with stronger general reasoning capability are not more robust to compositional reasoning attacks, often assembling the intent yet failing to refuse; (2) safety alignment consistently degrades as context length increases; and (3) inference-time reasoning effort is a key mitigating factor: increasing inference-time compute reduces attack success by over 50 percentage points on GPT-oss-120b model. Together, these results suggest that safety does not automatically scale with reasoning capability, especially under long-context inference.
- Abstract(参考訳): 大規模言語モデル(LLM)は、長文処理と高度な推論を組み合わせることで、数万のトークンに分散した情報を検索し、合成することができるようになっている。
仮説は、モデルが明示されていない場合でも有害な意図を認識するのを助けることで、より強力な推論能力は安全性を向上させるべきであるというものである。
我々はこの仮説を、有害な意図が暗黙的であり、推論によって推論されなければならない長いコンテキスト設定で検証し、それが保持されていないことを確認する。
有害なクエリを不完全な断片に分解し、長いコンテキストに分散する新たな脅威モデルである構成推論攻撃を導入する。
その後、モデルは中立的な推論クエリによって、検索と合成を誘導し、有害な意図が合成後にのみ出現する。
最大64kのトークンで14のフロンティアLSMを評価することにより,(1) より強い一般的な推論能力を持つモデルでは,構成的推論攻撃に対してより堅牢ではないこと,(2) 文脈長の増大に伴って安全性が一貫して低下すること,(3) 推論時推論の取り組みが重要な緩和要因であること,(3) 推論時間計算の増大により,GPT-oss-120bモデル上での攻撃成功率が50ポイント以上低下すること,の3つが明らかになった。
これらの結果は,特に長文推論において,安全性が推論能力とともに自動的にスケールしないことを示唆している。
関連論文リスト
- Does More Inference-Time Compute Really Help Robustness? [50.47666612618054]
小規模なオープンソースモデルは、推論時間スケーリングの恩恵を受けることができることを示す。
我々は、逆スケーリング法として、直感的に動機付けられ、実証的に検証された重要なセキュリティリスクを特定します。
私たちは、セキュリティに敏感で現実世界のアプリケーションに推論タイムのスケーリングを適用する前に、実践者にこれらの微妙なトレードオフを慎重に検討するよう促します。
論文 参考訳(メタデータ) (2025-07-21T18:08:38Z) - Is Reasoning All You Need? Probing Bias in the Age of Reasoning Language Models [0.0]
RLM(Reasoning Language Models)は、複雑な多段階推論タスクを実行する能力によって注目を集めている。
これらの能力は信頼性の向上を約束するが、社会的バイアスに対する堅牢性への影響はまだ不明だ。
我々は, CLEAR-Bias ベンチマークを用いて, RLM のバイアス誘発に対する対角的ロバスト性について検討する。
論文 参考訳(メタデータ) (2025-07-03T17:01:53Z) - HauntAttack: When Attack Follows Reasoning as a Shadow [34.70760016394781]
本稿では,新規かつ汎用的なブラックボックス攻撃フレームワークHauntAttackを紹介する。
既存の質問における重要な推論条件を有害な指示で修正する。
攻撃成功率の平均は70%であり,最強のベースラインに対して最大12ポイントの絶対的改善を達成できた。
論文 参考訳(メタデータ) (2025-06-08T07:45:48Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。