論文の概要: CODE: A Contradiction-Based Deliberation Extension Framework for Overthinking Attacks on Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2601.13112v1
- Date: Mon, 19 Jan 2026 14:52:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.937691
- Title: CODE: A Contradiction-Based Deliberation Extension Framework for Overthinking Attacks on Retrieval-Augmented Generation
- Title(参考訳): CODE:Retrieval-Augmented Generationに対する攻撃を克服するためのコントラクションベースの検討拡張フレームワーク
- Authors: Xiaolei Zhang, Xiaojun Jia, Liquan Chen, Songze Li,
- Abstract要約: 我々はContradiction-Based Deliberation Extension (CODE) というエンドツーエンド攻撃フレームワークを提案する。
CODEは、知識ベースに注入される中毒サンプルを構築するためのマルチエージェントアーキテクチャを開発している。
実験の結果、CODEはタスク性能を劣化させることなく5.32x-24.72倍のトークン消費を発生させることが示された。
- 参考スコア(独自算出の注目度): 43.85448261466922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Introducing reasoning models into Retrieval-Augmented Generation (RAG) systems enhances task performance through step-by-step reasoning, logical consistency, and multi-step self-verification. However, recent studies have shown that reasoning models suffer from overthinking attacks, where models are tricked to generate unnecessarily high number of reasoning tokens. In this paper, we reveal that such overthinking risk can be inherited by RAG systems equipped with reasoning models, by proposing an end-to-end attack framework named Contradiction-Based Deliberation Extension (CODE). Specifically, CODE develops a multi-agent architecture to construct poisoning samples that are injected into the knowledge base. These samples 1) are highly correlated with the use query, such that can be retrieved as inputs to the reasoning model; and 2) contain contradiction between the logical and evidence layers that cause models to overthink, and are optimized to exhibit highly diverse styles. Moreover, the inference overhead of CODE is extremely difficult to detect, as no modification is needed on the user query, and the task accuracy remain unaffected. Extensive experiments on two datasets across five commercial reasoning models demonstrate that the proposed attack causes a 5.32x-24.72x increase in reasoning token consumption, without degrading task performance. Finally, we also discuss and evaluate potential countermeasures to mitigate overthinking risks.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)システムへの推論モデルの導入は、ステップバイステップの推論、論理的一貫性、マルチステップの自己検証を通じてタスクパフォーマンスを向上させる。
しかし、最近の研究では、推論モデルが過大な攻撃に悩まされていることが示されている。
本稿では,このような過度なリスクを推論モデルを備えたRAGシステムによって引き継ぎ,Contradiction-Based Deliberation Extension (CODE) と呼ばれるエンドツーエンド攻撃フレームワークを提案する。
特に、CODEは、知識ベースに注入される中毒サンプルを構築するためのマルチエージェントアーキテクチャを開発している。
これらのサンプル
1)は,推論モデルへの入力として検索可能な使用クエリと高い相関関係にある。
2) モデルが過大評価される論理層とエビデンス層の間に矛盾があり、非常に多様なスタイルを示すように最適化されている。
さらに、ユーザクエリの変更は不要であり、タスクの正確性に影響を与えないため、CODEの推測オーバーヘッドを検出することは極めて困難である。
5つの商業推論モデルにわたる2つのデータセットの大規模な実験により、提案された攻撃は、タスク性能を劣化させることなく、トークン消費の推理を5.32x-24.72x増加させることを示した。
最後に、過度のリスクを緩和するための潜在的な対策についても検討・評価する。
関連論文リスト
- Structured Reasoning for Large Language Models [59.215789462977206]
本研究では、推論を明示的、評価可能、トレーニング可能なコンポーネントに分解するフレームワークであるStructured Reasoning(SCR)を提案する。
SCRは推論効率と自己検証を大幅に改善する。
既存の推論パラダイムと比較して、出力トークンの長さを最大50%削減する。
論文 参考訳(メタデータ) (2026-01-12T04:04:01Z) - Adversarial Yet Cooperative: Multi-Perspective Reasoning in Retrieved-Augmented Language Models [72.4149653187766]
本稿ではAdrialversa Reasoning RAG(ARR)というReasoner-Verifierフレームワークを提案する。
ReasonerとVerifierは、回収された証拠を推論し、プロセス認識の利点によってガイドされながら、互いの論理を批判する。
複数のベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2026-01-08T06:57:03Z) - Think Twice: Branch-and-Rethink Reasoning Reward Model [32.70732791642558]
本稿では,2ターンのRMであるブランチ・アンド・リコンプリート(BR-RM)について紹介する。
我々は、厳密なフォーマットチェックによる単純なバイナリ結果報酬を用いて、構造化された2ターントレース上でGRPOスタイルの強化学習を訓練する。
All-at-oncescoringinto focus, second-lookreasoning を変換することにより、BR-RMreducesjudgmentdiffusionand は微妙で連続的な誤りに対する感受性を高める。
論文 参考訳(メタデータ) (2025-10-27T17:58:07Z) - D-REX: A Benchmark for Detecting Deceptive Reasoning in Large Language Models [62.83226685925107]
Deceptive Reasoning Exposure Suite (D-REX)は、モデルの内部推論プロセスと最終的な出力との相違を評価するために設計された、新しいデータセットである。
D-REXの各サンプルには、敵システムプロンプト、エンドユーザーのテストクエリ、モデルの一見無害な応答、そして重要なことに、モデルの内部チェーンが含まれている。
我々は、D-REXが既存のモデルと安全メカニズムに重大な課題をもたらすことを実証した。
論文 参考訳(メタデータ) (2025-09-22T15:59:40Z) - Explainer-guided Targeted Adversarial Attacks against Binary Code Similarity Detection Models [12.524811181751577]
我々は,BCSDモデルに対する敵攻撃に対する新たな最適化を提案する。
特に,攻撃目標は,モデル予測を特定の範囲に制限することである。
我々の攻撃は、モデル決定境界の解釈において、ブラックボックス、モデルに依存しない説明器の優れた能力を活用する。
論文 参考訳(メタデータ) (2025-06-05T08:29:19Z) - Controlling Risk of Retrieval-augmented Generation: A Counterfactual Prompting Framework [77.45983464131977]
我々は、RAGモデルの予測が誤りであり、現実のアプリケーションにおいて制御不能なリスクをもたらす可能性がどの程度あるかに焦点を当てる。
本研究は,RAGの予測に影響を及ぼす2つの重要な潜伏要因を明らかにする。
我々は,これらの要因をモデルに誘導し,その応答に与える影響を解析する,反実的プロンプトフレームワークを開発した。
論文 参考訳(メタデータ) (2024-09-24T14:52:14Z) - Adversarial Attack for Explanation Robustness of Rationalization Models [17.839644167949906]
合理化モデルは、人間が予測を理解し、信頼するために、入力テキストのサブセットを選択する。
本論文は, 合理化モデルの説明可能性について, 予測を変更せずに損なうことを目的としている。
論文 参考訳(メタデータ) (2024-08-20T12:43:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。