論文の概要: Trojan Horses in Recruiting: A Red-Teaming Case Study on Indirect Prompt Injection in Standard vs. Reasoning Models
- arxiv url: http://arxiv.org/abs/2602.18514v1
- Date: Thu, 19 Feb 2026 19:26:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.121995
- Title: Trojan Horses in Recruiting: A Red-Teaming Case Study on Indirect Prompt Injection in Standard vs. Reasoning Models
- Title(参考訳): リクルートにおけるトロイの木馬--標準対推論モデルにおける間接プロンプト注入のレッドチームケーススタディ
- Authors: Manuel Wirth,
- Abstract要約: 推論(Reasoning)またはChain-of-Thought(Chain-of-Thought)モデルには、自己修正能力による安全性上のアドバンテージがある。
本研究では,Qwen 3 30Bアーキテクチャを用いた安全スルー推論の前提に挑戦する。
標準モデルは単純な攻撃を正当化するために脆い幻覚に頼ったが、推論モデルは危険な双対性を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models (LLMs) are increasingly integrated into automated decision-making pipelines, specifically within Human Resources (HR), the security implications of Indirect Prompt Injection (IPI) become critical. While a prevailing hypothesis posits that "Reasoning" or "Chain-of-Thought" Models possess safety advantages due to their ability to self-correct, emerging research suggests these capabilities may enable more sophisticated alignment failures. This qualitative Red-Teaming case study challenges the safety-through-reasoning premise using the Qwen 3 30B architecture. By subjecting both a standard instruction-tuned model and a reasoning-enhanced model to a "Trojan Horse" curriculum vitae, distinct failure modes are observed. The results suggest a complex trade-off: while the Standard Model resorted to brittle hallucinations to justify simple attacks and filtered out illogical constraints in complex scenarios, the Reasoning Model displayed a dangerous duality. It employed advanced strategic reframing to make simple attacks highly persuasive, yet exhibited "Meta-Cognitive Leakage" when faced with logically convoluted commands. This study highlights a failure mode where the cognitive load of processing complex adversarial instructions causes the injection logic to be unintentionally printed in the final output, rendering the attack more detectable by humans than in Standard Models.
- Abstract(参考訳): 大規模言語モデル(LLM)がヒューマンリソース(HR)内の自動意思決定パイプラインに統合されるにつれて、間接プロンプトインジェクション(IPI)のセキュリティへの影響が重要になる。
一般的な仮説では、"推論"や"整合性"モデルは、自己修正能力による安全性上の優位性を持っているが、新たな研究は、これらの能力がより洗練されたアライメント障害を引き起こす可能性を示唆している。
この質的なRed-Teamingケーススタディは、Qwen 3 30Bアーキテクチャを使用した安全スルー推論の前提に挑戦する。
標準的な指導指導モデルと推論強化モデルの両方を「トロイの木馬」カリキュラムヴィタエに適用することにより、異なる障害モードが観察される。
標準モデルは単純な攻撃を正当化し、複雑なシナリオで非論理的制約をフィルタリングするために脆弱な幻覚に頼ったが、Reasoning Modelは危険な双対性を示した。
先進的な戦略リフレーミングを採用して、単純な攻撃を非常に説得力のあるものにしたが、論理的に複雑な命令に直面した時に「メタ認知漏洩」を示した。
本研究は,複雑な逆数命令処理の認知負荷が最終出力に意図せず注入ロジックを印字する障害モードを強調し,標準モデルよりも人による攻撃を検知しやすくする。
関連論文リスト
- TraceGuard: Process-Guided Firewall against Reasoning Backdoors in Large Language Models [19.148124494194317]
我々は,小規模モデルを堅牢な推論ファイアウォールに変換するプロセス誘導型セキュリティフレームワークであるTraceGuardを提案する。
提案手法は,推理トレースを信頼できないペイロードとして扱い,詳細な防衛戦略を確立する。
グレーボックス設定における適応的敵に対する堅牢性を実証し、TraceGuardを実用的で低レイテンシなセキュリティプリミティブとして確立する。
論文 参考訳(メタデータ) (2026-03-02T22:19:13Z) - CODE: A Contradiction-Based Deliberation Extension Framework for Overthinking Attacks on Retrieval-Augmented Generation [43.85448261466922]
我々はContradiction-Based Deliberation Extension (CODE) というエンドツーエンド攻撃フレームワークを提案する。
CODEは、知識ベースに注入される中毒サンプルを構築するためのマルチエージェントアーキテクチャを開発している。
実験の結果、CODEはタスク性能を劣化させることなく5.32x-24.72倍のトークン消費を発生させることが示された。
論文 参考訳(メタデータ) (2026-01-19T14:52:31Z) - Large Reasoning Models Learn Better Alignment from Flawed Thinking [56.08883934423522]
大規模推論モデル(LRM)は、最終的な答えを生成する前に構造化チェーン・オブ・シント(CoT)を生成することで「考える」。
本稿では,Regressed Learning (RL) 手法であるRECAPを提案する。
論文 参考訳(メタデータ) (2025-10-01T14:15:43Z) - AdvChain: Adversarial Chain-of-Thought Tuning for Robust Safety Alignment of Large Reasoning Models [62.70575022567081]
本稿では,逆CoTチューニングによる動的自己補正をモデルに教えるアライメントパラダイムであるAdvChainを提案する。
私たちの仕事は、より堅牢で信頼性の高い推論モデルを構築するための新しい方向性を確立します。
論文 参考訳(メタデータ) (2025-09-29T04:27:23Z) - D-REX: A Benchmark for Detecting Deceptive Reasoning in Large Language Models [62.83226685925107]
Deceptive Reasoning Exposure Suite (D-REX)は、モデルの内部推論プロセスと最終的な出力との相違を評価するために設計された、新しいデータセットである。
D-REXの各サンプルには、敵システムプロンプト、エンドユーザーのテストクエリ、モデルの一見無害な応答、そして重要なことに、モデルの内部チェーンが含まれている。
我々は、D-REXが既存のモデルと安全メカニズムに重大な課題をもたらすことを実証した。
論文 参考訳(メタデータ) (2025-09-22T15:59:40Z) - Is Reasoning All You Need? Probing Bias in the Age of Reasoning Language Models [0.0]
RLM(Reasoning Language Models)は、複雑な多段階推論タスクを実行する能力によって注目を集めている。
これらの能力は信頼性の向上を約束するが、社会的バイアスに対する堅牢性への影響はまだ不明だ。
我々は, CLEAR-Bias ベンチマークを用いて, RLM のバイアス誘発に対する対角的ロバスト性について検討する。
論文 参考訳(メタデータ) (2025-07-03T17:01:53Z) - Implicit Bias-Like Patterns in Reasoning Models [0.5729426778193398]
暗黙のバイアス(英語: Implicit bias)とは、知覚、判断、行動を形成する自動的な精神過程を指す。
本稿では、推論モデルにおける暗黙的なバイアス様処理を研究するために、推論モデルインプシット・アソシエーション・テスト(RM-IAT)を提案する。
論文 参考訳(メタデータ) (2025-03-14T16:40:02Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - QUEEN: Query Unlearning against Model Extraction [22.434812818540966]
モデル抽出攻撃は、ディープラーニングモデルのセキュリティとプライバシに対して、無視できない脅威となる。
本稿では,QUEEN(QUEry unlEarNing)を提案する。
論文 参考訳(メタデータ) (2024-07-01T13:01:41Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。