論文の概要: Safe in the Future, Dangerous in the Past: Dissecting Temporal and Linguistic Vulnerabilities in LLMs
- arxiv url: http://arxiv.org/abs/2512.24556v2
- Date: Sun, 04 Jan 2026 19:51:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 14:31:43.745412
- Title: Safe in the Future, Dangerous in the Past: Dissecting Temporal and Linguistic Vulnerabilities in LLMs
- Title(参考訳): 未来における安全, 過去における危険 - LLMにおける時間的・言語的脆弱性の分離-
- Authors: Muhammad Abdullahi Said, Muhammad Sammani Sani,
- Abstract要約: 本研究では, HausaSafety を用いた3つのモデル (GPT5.1, Gemini 3 Pro, Claude 4.5 Opus) の系統的監査を行った。
言語間の非線形相互作用(英語対ハウサ)と時間的フレーミング(時間的フレーミング)を検証した。
我々は、過去分断が防御をバイパスした15.6%の深刻な時間的非対称性を報告し、一方、未来分断のシナリオは超保守的拒絶(57.2%の安全)を引き起こした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) integrate into critical global infrastructure, the assumption that safety alignment transfers zero-shot from English to other languages remains a dangerous blind spot. This study presents a systematic audit of three state of the art models (GPT-5.1, Gemini 3 Pro, and Claude 4.5 Opus) using HausaSafety, a novel adversarial dataset grounded in West African threat scenarios (e.g., Yahoo-Yahoo fraud, Dane gun manufacturing). Employing a 2 x 4 factorial design across 1,440 evaluations, we tested the non-linear interaction between language (English vs. Hausa) and temporal framing. Our results challenge the narrative of the multilingual safety gap. Instead of a simple degradation in low-resource settings, we identified a complex interference mechanism in which safety is determined by the intersection of variables. Although the models exhibited a reverse linguistic vulnerability with Claude 4.5 Opus proving significantly safer in Hausa (45.0%) than in English (36.7%) due to uncertainty-driven refusal, they suffered catastrophic failures in temporal reasoning. We report a profound Temporal Asymmetry, where past-tense framing bypassed defenses (15.6% safe) while future-tense scenarios triggered hyper-conservative refusals (57.2% safe). The magnitude of this volatility is illustrated by a 9.2x disparity between the safest and most vulnerable configurations, proving that safety is not a fixed property but a context-dependent state. We conclude that current models rely on superficial heuristics rather than robust semantic understanding, creating Safety Pockets that leave Global South users exposed to localized harms. We propose Invariant Alignment as a necessary paradigm shift to ensure safety stability across linguistic and temporal shifts.
- Abstract(参考訳): 大言語モデル(LLM)が重要なグローバルインフラストラクチャに統合されるにつれ、安全アライメントが英語から他の言語にゼロショットを転送するという仮定は、依然として危険な盲点となっている。
本研究は,西アフリカの脅威シナリオ(ヤフー・ヤフー詐欺,ダネ銃製造など)に根ざした新たな敵対的データセットであるHausaSafetyを用いて,最先端3つのモデル(GPT-5.1,Gemini 3 Pro,Claude 4.5 Opus)の体系的監査を行った。
1,440点の評価に2×4因子設計を適用し,言語(英語とハウサ語)と時間的フレーミングの非線形相互作用を検証した。
この結果は多言語的安全ギャップの物語に挑戦する。
低リソース環境での単純な劣化の代わりに、変数の交叉によって安全性が決定される複雑な干渉機構を特定した。
クロード4.5オプスは、不確実性による拒絶により、ハウサで45.0%、英語で36.7%とかなり安全であることが証明されたが、時間的理由から破滅的な失敗を被った。
本報告では, 時間的非対称性が深く, 過去のフレーミングによる防御は15.6%, 将来的なシナリオは57.2%, 超保守的拒絶は57.2%であった。
このボラティリティの大きさは、最も安全な構成と最も脆弱な構成の間に9.2倍の差があり、安全性は固定された性質ではなく、文脈に依存した状態であることを証明している。
我々は,現在のモデルが意味理解の堅牢さよりも表面的ヒューリスティックに頼っていると結論付け,グローバル・サウスのユーザを局所的な被害に晒すセーフティ・ポケットを創出する。
Invariant Alignment を言語的・時間的変化の安全性を確保するためのパラダイムシフトとして提案する。
関連論文リスト
- Qwen3Guard Technical Report [127.69960525219051]
Qwen3Guardは、多言語安全ガードレールモデルである。
生成的Qwen3Guardは、きめ細かい三級判定を可能にする命令追従タスクとして安全分類をキャストする。
Stream Qwen3Guardは、リアルタイム安全監視のためのトークンレベルの分類ヘッドを導入している。
論文 参考訳(メタデータ) (2025-10-16T04:00:18Z) - Circumventing Safety Alignment in Large Language Models Through Embedding Space Toxicity Attenuation [13.971909819796762]
大規模言語モデル(LLM)は、医療、教育、サイバーセキュリティといった分野で大きな成功を収めている。
埋め込み空間中毒は、敵が入力データの内部意味表現を操作して安全アライメント機構をバイパスする微妙な攻撃ベクトルである。
本稿では,線形変換による埋め込み空間における毒性感受性次元の同定と減衰を行う新しいフレームワークETTAを提案する。
論文 参考訳(メタデータ) (2025-07-08T03:01:00Z) - SafeDialBench: A Fine-Grained Safety Benchmark for Large Language Models in Multi-Turn Dialogues with Diverse Jailbreak Attacks [90.41592442792181]
大規模言語モデル(LLM)の安全性を評価するための詳細なベンチマーク SafeDialBench を提案する。
具体的には,6つの安全次元を考慮した2階層型階層型安全分類法を設計し,22の対話シナリオの下で中国語と英語の双方で4000以上のマルチターン対話を生成する。
特に,LLMの革新的なアセスメントフレームワークを構築し,安全でない情報を検出し,処理し,ジェイルブレイク攻撃時の一貫性を維持する。
論文 参考訳(メタデータ) (2025-02-16T12:08:08Z) - Emulated Disalignment: Safety Alignment for Large Language Models May Backfire! [65.06450319194454]
大きな言語モデル(LLM)は、人間との安全な会話を確保するために安全アライメントを行う。
本稿では,安全アライメントの反転が可能なトレーニングフリーアタック手法を提案する。
本手法をエミュレートした脱アライメント (ED) と呼ぶのは, このコントラスト分布からのサンプリングは, 安全報酬を最小限に抑えるため, 微調整の結果を確実にエミュレートするからである。
論文 参考訳(メタデータ) (2024-02-19T18:16:51Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z) - SC-Safety: A Multi-round Open-ended Question Adversarial Safety
Benchmark for Large Language Models in Chinese [21.893992064105085]
大規模言語モデル(LLM)は、社会的知覚に悪影響を及ぼす有害なコンテンツを生成できる。
SuperCLUE-Safety (SC-Safety) は、20以上の安全サブディメンジョンをカバーする4912のオープンエンド質問を備えたマルチラウンドの敵対的ベンチマークである。
論文 参考訳(メタデータ) (2023-10-09T16:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。