論文の概要: STAR: Detecting Inference-time Backdoors in LLM Reasoning via State-Transition Amplification Ratio
- arxiv url: http://arxiv.org/abs/2601.08511v1
- Date: Tue, 13 Jan 2026 12:51:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.200885
- Title: STAR: Detecting Inference-time Backdoors in LLM Reasoning via State-Transition Amplification Ratio
- Title(参考訳): STAR:状態遷移増幅比によるLLM推論時のバックドア検出
- Authors: Seong-Gyu Park, Sohee Park, Jisu Lee, Hyunsik Na, Daeseon Choi,
- Abstract要約: 出力確率シフトを解析してバックドアを検出するフレームワークSTAR(State-Transition Amplification Ratio)を提案する。
我々は、この状態遷移増幅を定量化し、CUSUMアルゴリズムを用いて永続的な異常を検出する。
多様なモデルと5つのベンチマークデータセットによる実験は、STARが堅牢な一般化能力を示すことを示している。
- 参考スコア(独自算出の注目度): 3.5612678889511016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent LLMs increasingly integrate reasoning mechanisms like Chain-of-Thought (CoT). However, this explicit reasoning exposes a new attack surface for inference-time backdoors, which inject malicious reasoning paths without altering model parameters. Because these attacks generate linguistically coherent paths, they effectively evade conventional detection. To address this, we propose STAR (State-Transition Amplification Ratio), a framework that detects backdoors by analyzing output probability shifts. STAR exploits the statistical discrepancy where a malicious input-induced path exhibits high posterior probability despite a low prior probability in the model's general knowledge. We quantify this state-transition amplification and employ the CUSUM algorithm to detect persistent anomalies. Experiments across diverse models (8B-70B) and five benchmark datasets demonstrate that STAR exhibits robust generalization capabilities, consistently achieving near-perfect performance (AUROC $\approx$ 1.0) with approximately $42\times$ greater efficiency than existing baselines. Furthermore, the framework proves robust against adaptive attacks attempting to bypass detection.
- Abstract(参考訳): 近年のLSMは、Chain-of-Thought (CoT)のような推論機構を統合している。
しかし、この明示的な推論は、モデルパラメータを変更することなく悪意のある推論パスを注入する推論時バックドアに対する新たな攻撃面を公開する。
これらの攻撃は言語的に一貫性のある経路を生成するため、従来の検出を効果的に回避する。
そこで本研究では,出力確率シフトを解析してバックドアを検出するSTAR(State-Transition Amplification Ratio)を提案する。
STARは、モデルの一般的な知識の事前確率が低いにもかかわらず、悪意のある入力誘導経路が高い後続確率を示すという統計的相違を生かしている。
我々は、この状態遷移増幅を定量化し、CUSUMアルゴリズムを用いて永続的な異常を検出する。
多様なモデル(8B-70B)と5つのベンチマークデータセットによる実験では、STARは堅牢な一般化能力を示し、既存のベースラインよりも約4,2\times$高い効率で、ほぼ完全なパフォーマンス(AUROC $\approx$1.0)を一貫して達成している。
さらに、このフレームワークは、検出をバイパスしようとする適応攻撃に対して堅牢であることを示す。
関連論文リスト
- Reflective Confidence: Correcting Reasoning Flaws via Online Self-Correction [14.164508061248775]
大規模言語モデル(LLM)は、チェーン・オブ・ソートや自己整合性といった技術を用いて、複雑な推論タスクにおいて強力なパフォーマンスを実現している。
本稿では,低信頼信号を終端指標からリフレクショントリガに変換する新しい推論フレームワークであるリフレクティブ信頼を提案する。
AIME 2025を含む数学的推論ベンチマークの実験では、高度な早期停止ベースラインに対して、同等の計算コストで大幅に精度が向上した。
論文 参考訳(メタデータ) (2025-12-21T05:35:07Z) - BadThink: Triggered Overthinking Attacks on Chain-of-Thought Reasoning in Large Language Models [24.513640096951566]
我々はBadThinkを提案する。BadThinkは、大規模言語モデルにおいて、意図的に「過度な」振る舞いを誘発するように設計された最初のバックドア攻撃である。
慎重に作成されたトリガープロンプトによってアクティベートされると、BadThinkはモデルを操作して膨らませた推論トレースを生成する。
我々はこの攻撃を、高度な毒をベースとした微調整戦略によって実施する。
論文 参考訳(メタデータ) (2025-11-13T13:44:51Z) - Efficient Thought Space Exploration through Strategic Intervention [54.35208611253168]
本稿では,この知見を2つの相乗的コンポーネントを通して操作するHint-Practice Reasoning(HPR)フレームワークを提案する。
フレームワークの中核となる革新は、動的に介入点を識別する分散不整合低減(DIR)である。
算術的および常識的推論ベンチマークによる実験は、HPRの最先端の効率-精度トレードオフを実証している。
論文 参考訳(メタデータ) (2025-11-13T07:26:01Z) - Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。
クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-05-22T17:11:58Z) - Lie Detector: Unified Backdoor Detection via Cross-Examination Framework [68.45399098884364]
半正直な設定で一貫したバックドア検出フレームワークを提案する。
本手法は,SoTAベースラインよりも5.4%,1.6%,11.9%の精度で検出性能が向上する。
特に、マルチモーダルな大規模言語モデルにおいて、バックドアを効果的に検出するのは、これが初めてである。
論文 参考訳(メタデータ) (2025-03-21T06:12:06Z) - Transferable Adversarial Attacks on SAM and Its Downstream Models [87.23908485521439]
本稿では,セグメント・アプライス・モデル(SAM)から微調整した様々な下流モデルに対する敵攻撃の可能性について検討する。
未知のデータセットを微調整したモデルに対する敵攻撃の有効性を高めるために,ユニバーサルメタ初期化(UMI)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-26T15:04:04Z) - TERD: A Unified Framework for Safeguarding Diffusion Models Against Backdoors [36.07978634674072]
拡散モデルは、その完全性を損なうバックドア攻撃に弱い。
本稿では,現在の攻撃に対する統一モデリングを構築するバックドアディフェンスフレームワークであるTERDを提案する。
TERDは、さまざまな解像度のデータセットにまたがる100%のTrue Positive Rate(TPR)とTrue Negative Rate(TNR)を保証します。
論文 参考訳(メタデータ) (2024-09-09T03:02:16Z) - CC-Cert: A Probabilistic Approach to Certify General Robustness of
Neural Networks [58.29502185344086]
安全クリティカルな機械学習アプリケーションでは、モデルを敵の攻撃から守ることが不可欠である。
意味的に意味のある入力変換に対して、ディープラーニングモデルの証明可能な保証を提供することが重要である。
我々はChernoff-Cramer境界に基づく新しい普遍確率的証明手法を提案する。
論文 参考訳(メタデータ) (2021-09-22T12:46:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。