論文の概要: OVERTHINKING: Slowdown Attacks on Reasoning LLMs
- arxiv url: http://arxiv.org/abs/2502.02542v1
- Date: Tue, 04 Feb 2025 18:12:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:00:02.280962
- Title: OVERTHINKING: Slowdown Attacks on Reasoning LLMs
- Title(参考訳): OverthinKing: LLMのスローダウン攻撃
- Authors: Abhinav Kumar, Jaechul Roh, Ali Naseh, Marzena Karpinska, Mohit Iyyer, Amir Houmansadr, Eugene Bagdasarian,
- Abstract要約: OVERTHINK攻撃は、推論モデルを操作するサードパーティアプリケーションのコストを増幅する可能性がある。
我々は、クローズド(OpenAI o1, o1-mini, o3-mini)とオープン(DeepSeek R1)の重み付けモデルを用いて、FreshQAおよびSQuADデータセットによる攻撃を評価した。
- 参考スコア(独自算出の注目度): 41.733352553317204
- License:
- Abstract: We increase overhead for applications that rely on reasoning LLMs-we force models to spend an amplified number of reasoning tokens, i.e., "overthink", to respond to the user query while providing contextually correct answers. The adversary performs an OVERTHINK attack by injecting decoy reasoning problems into the public content that is used by the reasoning LLM (e.g., for RAG applications) during inference time. Due to the nature of our decoy problems (e.g., a Markov Decision Process), modified texts do not violate safety guardrails. We evaluated our attack across closed-(OpenAI o1, o1-mini, o3-mini) and open-(DeepSeek R1) weights reasoning models on the FreshQA and SQuAD datasets. Our results show up to 46x slowdown and high transferability of the attack across models. To protect applications, we discuss and implement defenses leveraging LLM-based and system design approaches. Finally, we discuss societal, financial, and energy impacts of OVERTHINK attack which could amplify the costs for third party applications operating reasoning models.
- Abstract(参考訳): LLMの推論に依存するアプリケーションのオーバヘッドを増大させ、コンテキスト的に正しい回答を提供しながらユーザクエリに応答するために、モデルを増幅された数の推論トークン、すなわち"過剰思考"を使用するように強制する。
敵は、推論時間中にLLM(例えばRAGアプリケーション)が使用する公開コンテンツにデコイ推論問題を注入することにより、OVERTHINK攻撃を行う。
私たちのデコイ問題(例えばマルコフ決定プロセス)の性質のため、修正されたテキストは安全ガードレールに違反しない。
我々は、クローズド(OpenAI o1, o1-mini, o3-mini)とオープン(DeepSeek R1)の重み付けモデルを用いて、FreshQAおよびSQuADデータセットによる攻撃を評価した。
その結果, 攻撃速度は46倍に低下し, モデル間での攻撃の伝達性が向上した。
アプリケーションを保護するため,LLMおよびシステム設計アプローチを利用したディフェンスについて論じ,実装する。
最後に,OVERTHINK攻撃による社会的,経済的,エネルギー的影響について論じる。
関連論文リスト
- Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Adversarial Reasoning at Jailbreaking Time [49.70772424278124]
テスト時間計算による自動ジェイルブレイクに対する逆推論手法を開発した。
我々のアプローチは、LSMの脆弱性を理解するための新しいパラダイムを導入し、より堅牢で信頼性の高いAIシステムの開発の基礎を築いた。
論文 参考訳(メタデータ) (2025-02-03T18:59:01Z) - VERUS-LM: a Versatile Framework for Combining LLMs with Symbolic Reasoning [8.867818326729367]
本稿では,ニューロシンボリック推論の新しい枠組みであるVERUS-LMを紹介する。
VERUS-LMは汎用的なプロンプト機構を採用し、クエリからドメイン知識を明確に分離する。
提案手法は,LLMを著しく上回る,新しいデータセットの多種多様な推論に成功していることを示す。
論文 参考訳(メタデータ) (2025-01-24T14:45:21Z) - FlipedRAG: Black-Box Opinion Manipulation Attacks to Retrieval-Augmented Generation of Large Language Models [19.41533176888415]
Retrieval-Augmented Generation (RAG)は、知識データベースから関連する情報を動的に取得することで、幻覚とリアルタイムの制約に対処する。
本稿では,より現実的で脅迫的なシナリオとして,RAGに対する議論の的となっている論点に対する意見操作について紹介する。
本稿では、転送ベースであるFlipedRAGと呼ばれる新しいRAGブラックボックス攻撃手法を提案する。
論文 参考訳(メタデータ) (2025-01-06T12:24:57Z) - Stop Reasoning! When Multimodal LLM with Chain-of-Thought Reasoning Meets Adversarial Image [40.01901770193044]
MLLMを用いたより優れた推論を実現するために、CoT推論(Chain-of-Thought)が広く研究されている。
近年の研究では、MLLMはいまだに敵対的なイメージに悩まされている。
提案手法は,CoT推論過程をバイパスしながらモデルに攻撃を与える手法である。
論文 参考訳(メタデータ) (2024-02-22T17:36:34Z) - BadChain: Backdoor Chain-of-Thought Prompting for Large Language Models [15.381273199132433]
BadChainは大規模な言語モデル(LLM)に対する最初のバックドア攻撃であり、COTプロンプトを採用している。
2つのCOT戦略と6つのベンチマークタスクに対するBadChainの有効性を示す。
BadChain は LLM にとって深刻な脅威であり、堅牢で効果的な将来の防衛の開発の緊急性を強調している。
論文 参考訳(メタデータ) (2024-01-20T04:53:35Z) - Tensor Trust: Interpretable Prompt Injection Attacks from an Online Game [86.66627242073724]
本稿では,126,000以上のプロンプトインジェクションと46,000以上のプロンプトベースのプロンプトインジェクションに対する「防御」のデータセットを提案する。
我々の知る限り、これは現在、命令追従 LLM に対する人間生成の敵例の最大のデータセットである。
また、データセットを使用して、2種類のプロンプトインジェクションに対する耐性のベンチマークを作成し、これをプロンプト抽出とプロンプトハイジャックと呼ぶ。
論文 参考訳(メタデータ) (2023-11-02T06:13:36Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。