論文の概要: Reasoning Hijacking: Subverting LLM Classification via Decision-Criteria Injection
- arxiv url: http://arxiv.org/abs/2601.10294v1
- Date: Thu, 15 Jan 2026 11:12:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.113936
- Title: Reasoning Hijacking: Subverting LLM Classification via Decision-Criteria Injection
- Title(参考訳): Reasoning Hijacking: Decision-Criteria InjectionによるLCM分類の変換
- Authors: Yuansen Liu, Yixuan Tang, Anthony Kum Hoe Tun,
- Abstract要約: 我々は,新たな敵パラダイムであるハイジャックの推論とクリテリアアタックによるインスタンス化を提案する。
システムプロンプトをオーバーライドしようとするゴールハイジャックとは異なり、Reasoning Hijackingはハイレベルなゴールを受け入れるが、モデルの意思決定ロジックを操作する。
モデルの「意図」はユーザーの指示と一致しているため、これらの攻撃は目標のずれを検出するために設計された防御をバイパスすることができる。
- 参考スコア(独自算出の注目度): 4.682489563620585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current LLM safety research predominantly focuses on mitigating Goal Hijacking, preventing attackers from redirecting a model's high-level objective (e.g., from "summarizing emails" to "phishing users"). In this paper, we argue that this perspective is incomplete and highlight a critical vulnerability in Reasoning Alignment. We propose a new adversarial paradigm: Reasoning Hijacking and instantiate it with Criteria Attack, which subverts model judgments by injecting spurious decision criteria without altering the high-level task goal. Unlike Goal Hijacking, which attempts to override the system prompt, Reasoning Hijacking accepts the high-level goal but manipulates the model's decision-making logic by injecting spurious reasoning shortcut. Though extensive experiments on three different tasks (toxic comment, negative review, and spam detection), we demonstrate that even newest models are prone to prioritize injected heuristic shortcuts over rigorous semantic analysis. The results are consistent over different backbones. Crucially, because the model's "intent" remains aligned with the user's instructions, these attacks can bypass defenses designed to detect goal deviation (e.g., SecAlign, StruQ), exposing a fundamental blind spot in the current safety landscape. Data and code are available at https://github.com/Yuan-Hou/criteria_attack
- Abstract(参考訳): 現在のLLM安全性研究は、主にゴールハイジャックの緩和に焦点を当てており、攻撃者がモデルの高レベルな目標(例えば、"メールの要約"から"フィッシングユーザ"への)をリダイレクトすることを防ぐ。
本稿では、この観点は不完全であり、Reasoning Alignmentの重大な脆弱性を浮き彫りにする。
本稿では,ハイジャックの推論と,ハイレベルなタスク目標を変更することなく,突発的な決定基準を注入することで,モデル判断を逆転させるCriteria Attackを提案する。
システムプロンプトをオーバーライドしようとするゴールハイジャックとは異なり、Reasoning Hijackingはハイレベルなゴールを受け入れるが、素早い推論ショートカットを注入することでモデルの意思決定ロジックを操作する。
3つの異なるタスク(有毒なコメント、否定的なレビュー、スパム検出)について広範な実験を行ったが、最新のモデルでさえ厳密な意味分析よりも、注入されたヒューリスティックなショートカットを優先する傾向があることを実証した。
結果は異なるバックボーンに対して一貫性がある。
重要なのは、モデルの“インテント”がユーザの指示に従っているため、これらの攻撃は目標の偏差(SecAlign、StruQなど)を検出するために設計された防御を回避し、現在の安全環境における基本的な盲点を露呈することができる。
データとコードはhttps://github.com/Yuan-Hou/criteria_ attackで入手できる。
関連論文リスト
- Aligning Deep Implicit Preferences by Learning to Reason Defensively [22.548051297731416]
優先推論のギャップを埋めるために,批判駆動推論アライメント(CDRA)を提案する。
CDRAはスカラー報酬マッチングタスクから構造化推論プロセスにアライメントを再構成する。
実験により、CDRAは、堅牢な推論を実行しながら、ユーザの真の嗜好を発見し、整合するのに優れていることが示された。
論文 参考訳(メタデータ) (2025-10-13T09:26:47Z) - Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning? [68.82210578851442]
メカニスティックな解釈可能性レンズによる推論モデルにおいて、なぜ安全アライメントが失敗するのかを考察する。
トークン位置における拒絶意図の追跡のための線形探索手法を用いて,textbfrefusal cliff と呼ばれる現象を発見した。
提案手法は,最大断崖を示す訓練例を識別し,推論モデルの安全性を向上する手法であるtextbfCliff-as-a-Judge を提案する。
論文 参考訳(メタデータ) (2025-10-07T15:32:59Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Backdooring Outlier Detection Methods: A Novel Attack Approach [2.19238269573727]
外乱検出は、重要な現実世界のアプリケーションに分類器を配置するのに不可欠である。
本稿では,アウトリア検出タスクをターゲットとした新しいバックドアアタックであるBATODを提案する。
論文 参考訳(メタデータ) (2024-12-06T13:03:22Z) - Pseudo-Conversation Injection for LLM Goal Hijacking [3.574664325523221]
ゴールハイジャックでは、攻撃者はユーザーのプロンプトに慎重に作られた悪意のある接尾辞を付加する。
Pseudo-Conversation Injectionと呼ばれる新しいゴールハイジャック攻撃手法を導入する。
本稿では,擬似会話をターゲットとした擬似会話,普遍的擬似会話,ロバスト擬似会話という3つの擬似会話構築戦略を提案する。
論文 参考訳(メタデータ) (2024-10-31T06:58:34Z) - You Know What I'm Saying: Jailbreak Attack via Implicit Reference [22.520950422702757]
本研究は、以前見過ごされた脆弱性を特定し、Implicit Reference (AIR) による攻撃(Attack)と呼ぶ。
AIRは悪意のある目的を許容可能な目的に分解し、コンテキスト内の暗黙の参照を通してそれらをリンクする。
我々の実験は、AIRが最先端のLLMに対して有効であることを示し、ほとんどのモデルで90%を超える攻撃成功率(ASR)を達成した。
論文 参考訳(メタデータ) (2024-10-04T18:42:57Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - Object-fabrication Targeted Attack for Object Detection [54.10697546734503]
物体検出の敵攻撃は 標的攻撃と未標的攻撃を含む。
新たなオブジェクトファブリケーションターゲット攻撃モードは、特定のターゲットラベルを持つ追加の偽オブジェクトをファブリケートする検出器を誤解させる可能性がある。
論文 参考訳(メタデータ) (2022-12-13T08:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。