論文の概要: MortalMATH: Evaluating the Conflict Between Reasoning Objectives and Emergency Contexts
- arxiv url: http://arxiv.org/abs/2601.18790v1
- Date: Mon, 26 Jan 2026 18:55:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:09.024724
- Title: MortalMATH: Evaluating the Conflict Between Reasoning Objectives and Emergency Contexts
- Title(参考訳): MortalMATH: オブジェクトの推論と緊急コンテキストの衝突を評価する
- Authors: Etienne Lanzeray, Stephane Meilliez, Malo Ruelle, Damien Sileo,
- Abstract要約: MortalMATHは150のシナリオのベンチマークで、ユーザが代数をリクエストすると同時に、生命の危険が増す事態を記述します。
Llama-3.1)のようなジェネラリストモデルは、危険に対処するために数学を断った。
特別な推論モデル(Qwen-3-32bやGPT-5-nanoなど)は、ユーザが死亡を説明する間、95%以上のタスク完了率を維持しながら、非常事態を完全に無視することが多い。
これらの結果から,適切な回答を絶え間なく追求するトレーニングモデルは,安全な配置に必要な生存本能を必然的に解き放つ可能性が示唆された。
- 参考スコア(独自算出の注目度): 2.399357241833679
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models are increasingly optimized for deep reasoning, prioritizing the correct execution of complex tasks over general conversation. We investigate whether this focus on calculation creates a "tunnel vision" that ignores safety in critical situations. We introduce MortalMATH, a benchmark of 150 scenarios where users request algebra help while describing increasingly life-threatening emergencies (e.g., stroke symptoms, freefall). We find a sharp behavioral split: generalist models (like Llama-3.1) successfully refuse the math to address the danger. In contrast, specialized reasoning models (like Qwen-3-32b and GPT-5-nano) often ignore the emergency entirely, maintaining over 95 percent task completion rates while the user describes dying. Furthermore, the computational time required for reasoning introduces dangerous delays: up to 15 seconds before any potential help is offered. These results suggest that training models to relentlessly pursue correct answers may inadvertently unlearn the survival instincts required for safe deployment.
- Abstract(参考訳): 大規模言語モデルは、より深い推論のために最適化され、一般的な会話よりも複雑なタスクの正しい実行を優先する。
我々は,この計算に焦点をあてることで,危機時の安全性を無視する「トンネルビジョン」が生み出されるかどうかを考察する。
MortalMATHは,脳卒中症状,フリーフォールなど,生命が危うくなる事態を記述しながら,代数的支援を求める150のシナリオのベンチマークである。
Llama-3.1)のようなジェネラリストモデルは、危険に対処するために数学を断った。
対照的に、特別な推論モデル(Qwen-3-32b や GPT-5-nano など)は、ユーザが死亡を説明する間、95%以上のタスク完了率を維持しながら、緊急事態を完全に無視することが多い。
さらに、推論に必要な計算時間は、潜在的ヘルプが提供される最大15秒前に、危険な遅延をもたらす。
これらの結果から,適切な回答を絶え間なく追求するトレーニングモデルは,安全な配置に必要な生存本能を必然的に解き放つ可能性が示唆された。
関連論文リスト
- Defenses Against Prompt Attacks Learn Surface Heuristics [40.392588465939106]
大規模言語モデル(LLM)は、セキュリティに敏感なアプリケーションにますますデプロイされている。
LLMは、ユーザクエリや検索されたコンテンツに逆命令が現れるとき、意図したロジックをオーバーライドすることができる。
最近の防衛は、良心と悪意のあるラベルによる監督された微調整に依存している。
論文 参考訳(メタデータ) (2026-01-12T04:12:48Z) - Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning? [68.82210578851442]
メカニスティックな解釈可能性レンズによる推論モデルにおいて、なぜ安全アライメントが失敗するのかを考察する。
トークン位置における拒絶意図の追跡のための線形探索手法を用いて,textbfrefusal cliff と呼ばれる現象を発見した。
提案手法は,最大断崖を示す訓練例を識別し,推論モデルの安全性を向上する手法であるtextbfCliff-as-a-Judge を提案する。
論文 参考訳(メタデータ) (2025-10-07T15:32:59Z) - Thinking Before You Speak: A Proactive Test-time Scaling Approach [54.8205006555199]
emphThinking Before You Speak (TBYS)という名前の推論フレームワークとして、私たちのアイデアを実装しています。
インテリジェンス生成のためのコンテキスト内サンプルを自動的に収集・フィルタリングするパイプラインを設計する。
挑戦的な数学的データセットの実験は、TBYSの有効性を検証する。
論文 参考訳(メタデータ) (2025-08-26T03:43:32Z) - HauntAttack: When Attack Follows Reasoning as a Shadow [34.70760016394781]
本稿では,新規かつ汎用的なブラックボックス攻撃フレームワークHauntAttackを紹介する。
既存の質問における重要な推論条件を有害な指示で修正する。
攻撃成功率の平均は70%であり,最強のベースラインに対して最大12ポイントの絶対的改善を達成できた。
論文 参考訳(メタデータ) (2025-06-08T07:45:48Z) - The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models [54.88805865447848]
モデルが全体の効率を向上し,問題の難しさが効率に影響を及ぼすことを示す。
インストラクションモデルが簡単なアウトラインをドラフトし,思考モデルがそれを拡張する,シンプルな2段階パイプラインであるCOTHINKを提案する。
GSM8K、MATH500、AIME24では、COTHINKはトークンの使用量を21.1%削減し、4つの思考モデルの精度を維持し、強力な効率のベースラインと競争し続ける。
論文 参考訳(メタデータ) (2025-05-28T06:24:45Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - Temporal Reasoning on Implicit Events from Distant Supervision [91.20159064951487]
本稿では,暗黙的事象の理解度を評価する新しい時間的推論データセットを提案する。
我々は、暗黙の出来事と明示的な出来事の間の時間的関係を予測する際に、最先端のモデルが苦労していることを発見した。
本稿では,大規模テキストからの遠隔監視信号を利用して終末時刻を推定する,ニューロシンボリックな時間的推論モデルSYMTIMEを提案する。
論文 参考訳(メタデータ) (2020-10-24T03:12:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。