Fugu-MT 論文翻訳(概要): Is Reasoning Capability Enough for Safety in Long-Context Language Models?

論文の概要: Is Reasoning Capability Enough for Safety in Long-Context Language Models?

arxiv url: http://arxiv.org/abs/2602.08874v1
Date: Mon, 09 Feb 2026 16:35:14 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-10 20:26:25.367973
Title: Is Reasoning Capability Enough for Safety in Long-Context Language Models?
Title（参考訳）: ロングコンテキスト言語モデルにおける安全のための推論能力は十分か?
Authors: Yu Fu, Haz Sameen Shahgir, Huanli Gong, Zhipeng Wei, N. Benjamin Erichson, Yue Dong,
Abstract要約: 仮説は、モデルが明示されていない場合でも有害な意図を認識するのを助けることで、より強力な推論能力は安全性を向上させるべきであるというものである。我々はこの仮説を、有害な意図が暗黙的であり、推論によって推論されなければならない長いコンテキスト設定で検証する。有害なクエリを不完全な断片に分解し、長いコンテキストに分散する新たな脅威モデルである構成推論攻撃を導入する。
参考スコア（独自算出の注目度）: 19.70162650196862
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) increasingly combine long-context processing with advanced reasoning, enabling them to retrieve and synthesize information distributed across tens of thousands of tokens. A hypothesis is that stronger reasoning capability should improve safety by helping models recognize harmful intent even when it is not stated explicitly. We test this hypothesis in long-context settings where harmful intent is implicit and must be inferred through reasoning, and find that it does not hold. We introduce compositional reasoning attacks, a new threat model in which a harmful query is decomposed into incomplete fragments that scattered throughout a long context. The model is then prompted with a neutral reasoning query that induces retrieval and synthesis, causing the harmful intent to emerge only after composition. Evaluating 14 frontier LLMs on contexts up to 64k tokens, we uncover three findings: (1) models with stronger general reasoning capability are not more robust to compositional reasoning attacks, often assembling the intent yet failing to refuse; (2) safety alignment consistently degrades as context length increases; and (3) inference-time reasoning effort is a key mitigating factor: increasing inference-time compute reduces attack success by over 50 percentage points on GPT-oss-120b model. Together, these results suggest that safety does not automatically scale with reasoning capability, especially under long-context inference.
Abstract（参考訳）: 大規模言語モデル(LLM)は、長文処理と高度な推論を組み合わせることで、数万のトークンに分散した情報を検索し、合成することができるようになっている。仮説は、モデルが明示されていない場合でも有害な意図を認識するのを助けることで、より強力な推論能力は安全性を向上させるべきであるというものである。我々はこの仮説を、有害な意図が暗黙的であり、推論によって推論されなければならない長いコンテキスト設定で検証し、それが保持されていないことを確認する。有害なクエリを不完全な断片に分解し、長いコンテキストに分散する新たな脅威モデルである構成推論攻撃を導入する。その後、モデルは中立的な推論クエリによって、検索と合成を誘導し、有害な意図が合成後にのみ出現する。最大64kのトークンで14のフロンティアLSMを評価することにより,(1) より強い一般的な推論能力を持つモデルでは,構成的推論攻撃に対してより堅牢ではないこと,(2) 文脈長の増大に伴って安全性が一貫して低下すること,(3) 推論時推論の取り組みが重要な緩和要因であること,(3) 推論時間計算の増大により,GPT-oss-120bモデル上での攻撃成功率が50ポイント以上低下すること,の3つが明らかになった。これらの結果は,特に長文推論において,安全性が推論能力とともに自動的にスケールしないことを示唆している。

関連論文リスト

CausalFlip: A Benchmark for LLM Causal Judgment Beyond Semantic Matching [50.65932158912512]
そこで我々は,新しい大言語モデルの開発を促進するために,因果推論ベンチマークCausalFlipを提案する。 CaulFlipは、イベントトリプル上に構築された因果判断の質問で構成されており、共同創設者、チェーン、コライダーの関係が異なっている。回答のみのトレーニング,明示的なチェーン・オブ・ソート監視,そして内在型因果推論アプローチなどを含む,複数の訓練パラダイムによるLCMの評価を行った。
論文参考訳（メタデータ） (2026-02-23T18:06:15Z)
MortalMATH: Evaluating the Conflict Between Reasoning Objectives and Emergency Contexts [2.399357241833679]
MortalMATHは150のシナリオのベンチマークで、ユーザが代数をリクエストすると同時に、生命の危険が増す事態を記述します。 Llama-3.1)のようなジェネラリストモデルは、危険に対処するために数学を断った。特別な推論モデル(Qwen-3-32bやGPT-5-nanoなど)は、ユーザが死亡を説明する間、95%以上のタスク完了率を維持しながら、非常事態を完全に無視することが多い。これらの結果から,適切な回答を絶え間なく追求するトレーニングモデルは,安全な配置に必要な生存本能を必然的に解き放つ可能性が示唆された。
論文参考訳（メタデータ） (2026-01-26T18:55:07Z)
How Does Prefix Matter in Reasoning Model Tuning? [57.69882799751655]
推論(数学)、コーディング、安全性、事実性の3つのコアモデル機能にまたがる3つのR1シリーズモデルを微調整します。その結果,プレフィックス条件付きSFTでは安全性と推論性能が向上し,Safe@1の精度は最大で6%向上した。
論文参考訳（メタデータ） (2026-01-04T18:04:23Z)
Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning? [68.82210578851442]
メカニスティックな解釈可能性レンズによる推論モデルにおいて、なぜ安全アライメントが失敗するのかを考察する。トークン位置における拒絶意図の追跡のための線形探索手法を用いて,textbfrefusal cliff と呼ばれる現象を発見した。提案手法は,最大断崖を示す訓練例を識別し,推論モデルの安全性を向上する手法であるtextbfCliff-as-a-Judge を提案する。
論文参考訳（メタデータ） (2025-10-07T15:32:59Z)
Does More Inference-Time Compute Really Help Robustness? [50.47666612618054]
小規模なオープンソースモデルは、推論時間スケーリングの恩恵を受けることができることを示す。我々は、逆スケーリング法として、直感的に動機付けられ、実証的に検証された重要なセキュリティリスクを特定します。私たちは、セキュリティに敏感で現実世界のアプリケーションに推論タイムのスケーリングを適用する前に、実践者にこれらの微妙なトレードオフを慎重に検討するよう促します。
論文参考訳（メタデータ） (2025-07-21T18:08:38Z)
Is Reasoning All You Need? Probing Bias in the Age of Reasoning Language Models [0.0]
RLM(Reasoning Language Models)は、複雑な多段階推論タスクを実行する能力によって注目を集めている。これらの能力は信頼性の向上を約束するが、社会的バイアスに対する堅牢性への影響はまだ不明だ。我々は, CLEAR-Bias ベンチマークを用いて, RLM のバイアス誘発に対する対角的ロバスト性について検討する。
論文参考訳（メタデータ） (2025-07-03T17:01:53Z)
HauntAttack: When Attack Follows Reasoning as a Shadow [34.70760016394781]
本稿では,新規かつ汎用的なブラックボックス攻撃フレームワークHauntAttackを紹介する。既存の質問における重要な推論条件を有害な指示で修正する。攻撃成功率の平均は70%であり,最強のベースラインに対して最大12ポイントの絶対的改善を達成できた。
論文参考訳（メタデータ） (2025-06-08T07:45:48Z)
Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。 PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文参考訳（メタデータ） (2025-01-03T15:40:03Z)
Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文参考訳（メタデータ） (2024-01-31T07:26:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。