Fugu-MT 論文翻訳(概要): OVERTHINKING: Slowdown Attacks on Reasoning LLMs

論文の概要: OVERTHINKING: Slowdown Attacks on Reasoning LLMs

arxiv url: http://arxiv.org/abs/2502.02542v1
Date: Tue, 04 Feb 2025 18:12:41 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-05 15:21:56.406366
Title: OVERTHINKING: Slowdown Attacks on Reasoning LLMs
Title（参考訳）: OverthinKing: LLMのスローダウン攻撃
Authors: Abhinav Kumar, Jaechul Roh, Ali Naseh, Marzena Karpinska, Mohit Iyyer, Amir Houmansadr, Eugene Bagdasarian,
Abstract要約: OVERTHINK攻撃は、推論モデルを操作するサードパーティアプリケーションのコストを増幅する可能性がある。我々は、クローズド(OpenAI o1, o1-mini, o3-mini)とオープン(DeepSeek R1)の重み付けモデルを用いて、FreshQAおよびSQuADデータセットによる攻撃を評価した。
参考スコア（独自算出の注目度）: 41.733352553317204
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We increase overhead for applications that rely on reasoning LLMs-we force models to spend an amplified number of reasoning tokens, i.e., "overthink", to respond to the user query while providing contextually correct answers. The adversary performs an OVERTHINK attack by injecting decoy reasoning problems into the public content that is used by the reasoning LLM (e.g., for RAG applications) during inference time. Due to the nature of our decoy problems (e.g., a Markov Decision Process), modified texts do not violate safety guardrails. We evaluated our attack across closed-(OpenAI o1, o1-mini, o3-mini) and open-(DeepSeek R1) weights reasoning models on the FreshQA and SQuAD datasets. Our results show up to 46x slowdown and high transferability of the attack across models. To protect applications, we discuss and implement defenses leveraging LLM-based and system design approaches. Finally, we discuss societal, financial, and energy impacts of OVERTHINK attack which could amplify the costs for third party applications operating reasoning models.
Abstract（参考訳）: LLMの推論に依存するアプリケーションのオーバヘッドを増大させ、コンテキスト的に正しい回答を提供しながらユーザクエリに応答するために、モデルを増幅された数の推論トークン、すなわち"過剰思考"を使用するように強制する。敵は、推論時間中にLLM(例えばRAGアプリケーション)が使用する公開コンテンツにデコイ推論問題を注入することにより、OVERTHINK攻撃を行う。私たちのデコイ問題(例えばマルコフ決定プロセス)の性質のため、修正されたテキストは安全ガードレールに違反しない。我々は、クローズド(OpenAI o1, o1-mini, o3-mini)とオープン(DeepSeek R1)の重み付けモデルを用いて、FreshQAおよびSQuADデータセットによる攻撃を評価した。その結果, 攻撃速度は46倍に低下し, モデル間での攻撃の伝達性が向上した。アプリケーションを保護するため,LLMおよびシステム設計アプローチを利用したディフェンスについて論じ,実装する。最後に,OVERTHINK攻撃による社会的,経済的,エネルギー的影響について論じる。

関連論文リスト

Excessive Reasoning Attack on Reasoning LLMs [26.52688123765127]
本研究では,過度な推論行動を活用するために,敵対的入力を作成できるという,新たな脅威を明らかにする。提案手法は,実用性能に匹敵する推理長を3倍から9倍に向上することを示した。提案手法は,o3-mini,o1-mini,DeepSeek-R1,QWQモデルで計算オーバーヘッドを誘導するトランスファービリティを示す。
論文参考訳（メタデータ） (2025-06-17T10:16:52Z)
Wolf Hidden in Sheep's Conversations: Toward Harmless Data-Based Backdoor Attacks for Jailbreaking Large Language Models [69.11679786018206]
Supervised Fine-tuning (SFT) は、大きな言語モデルと人間の意図を協調させ、ラベル付きタスク固有データでトレーニングする。近年の研究では、悪意のある攻撃者が、有害な質問応答ペアにトリガーを埋め込むことで、これらのモデルにバックドアを注入できることが示されている。脱獄性LLMに対する新しいクリーンデータバックドアアタックを提案する。
論文参考訳（メタデータ） (2025-05-23T08:13:59Z)
Practical Reasoning Interruption Attacks on Reasoning Large Language Models [0.24963930962128378]
大規模な言語モデル(RLLM)の推論は、さまざまなタスクにわたって優れたパフォーマンスを示してきたが、多くのセキュリティ脆弱性も明らかにしている。最近の研究で、DeepSeek-R1では、敵対的なプロンプトの下で、明確な"思考停止"脆弱性が特定されている。我々は,新規なプロンプトインジェクション・アタックを開発し,その根本原因を解析した。
論文参考訳（メタデータ） (2025-05-10T13:36:01Z)
ReaRAG: Knowledge-guided Reasoning Enhances Factuality of Large Reasoning Models with Iterative Retrieval Augmented Generation [38.64751082999587]
大きな推論モデル(LRM)は、顕著な推論能力を示すが、主にパラメトリック知識に依存し、事実の正確性を制限する。本稿では,過剰な反復を伴わない多様なクエリを探索する,事実性強化推論モデルReaRAGを提案する。我々の研究は、レトリーバル強化世代(RAG)のロバスト推論を効果的に統合しつつ、LRMの事実性を向上する。
論文参考訳（メタデータ） (2025-03-27T17:44:18Z)
Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。有害なクエリを良心的な推論タスクに再構成する。 RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文参考訳（メタデータ） (2025-02-16T09:27:44Z)
Jailbreak Attack Initializations as Extractors of Compliance Directions [4.506537904404427]
安全に配慮したLSMは、コンプライアンスまたは拒絶のプロンプトに応答する。近年の研究では、他のプロンプトからの自己伝達による攻撃の初期化が、その性能を著しく向上させることが示されている。コンプライアンスの方向性に沿って、未確認のプロンプトをプロジェクションすることを目的としたフレームワークであるCRIを提案する。
論文参考訳（メタデータ） (2025-02-13T20:25:40Z)
Adversarial Reasoning at Jailbreaking Time [49.70772424278124]
テスト時間計算による自動ジェイルブレイクに対する逆推論手法を開発した。我々のアプローチは、LSMの脆弱性を理解するための新しいパラダイムを導入し、より堅牢で信頼性の高いAIシステムの開発の基礎を築いた。
論文参考訳（メタデータ） (2025-02-03T18:59:01Z)
VERUS-LM: a Versatile Framework for Combining LLMs with Symbolic Reasoning [8.867818326729367]
本稿では,ニューロシンボリック推論の新しい枠組みであるVERUS-LMを紹介する。 VERUS-LMは汎用的なプロンプト機構を採用し、クエリからドメイン知識を明確に分離する。提案手法は,LLMを著しく上回る,新しいデータセットの多種多様な推論に成功していることを示す。
論文参考訳（メタデータ） (2025-01-24T14:45:21Z)
FlipedRAG: Black-Box Opinion Manipulation Attacks to Retrieval-Augmented Generation of Large Language Models [19.41533176888415]
Retrieval-Augmented Generation (RAG)は、知識データベースから関連する情報を動的に取得することで、幻覚とリアルタイムの制約に対処する。本稿では,より現実的で脅迫的なシナリオとして,RAGに対する議論の的となっている論点に対する意見操作について紹介する。本稿では、転送ベースであるFlipedRAGと呼ばれる新しいRAGブラックボックス攻撃手法を提案する。
論文参考訳（メタデータ） (2025-01-06T12:24:57Z)
Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [51.51850981481236]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。 PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文参考訳（メタデータ） (2025-01-03T15:40:03Z)
Stepwise Reasoning Error Disruption Attack of LLMs [34.30455975290165]
既存の大規模言語モデル(LLM)に対する攻撃は、特定の設定や非受容性の欠如によって制限される。本稿では,事前の推論ステップに誤りを微妙に注入し,そのモデルに誤りを生じさせるステップワイズ rEasoning Error Disruption (SEED) 攻撃を提案する。
論文参考訳（メタデータ） (2024-12-16T16:20:41Z)
Can We Trust Embodied Agents? Exploring Backdoor Attacks against Embodied LLM-based Decision-Making Systems [27.316115171846953]
大規模言語モデル(LLM)は、実世界のAI意思決定タスクにおいて大きな可能性を示している。 LLMは、固有の常識と推論能力を活用するために微調整され、特定の用途に適合する。この微調整プロセスは、特に安全クリティカルなサイバー物理システムにおいて、かなりの安全性とセキュリティの脆弱性をもたらす。
論文参考訳（メタデータ） (2024-05-27T17:59:43Z)
Stop Reasoning! When Multimodal LLM with Chain-of-Thought Reasoning Meets Adversarial Image [40.01901770193044]
MLLMを用いたより優れた推論を実現するために、CoT推論(Chain-of-Thought)が広く研究されている。近年の研究では、MLLMはいまだに敵対的なイメージに悩まされている。提案手法は,CoT推論過程をバイパスしながらモデルに攻撃を与える手法である。
論文参考訳（メタデータ） (2024-02-22T17:36:34Z)
PoisonedRAG: Knowledge Corruption Attacks to Retrieval-Augmented Generation of Large Language Models [45.409248316497674]
大規模言語モデル(LLM)は、その例外的な生成能力により、顕著な成功を収めた。 Retrieval-Augmented Generation (RAG)は、これらの制限を緩和するための最先端技術である。 RAGシステムにおける知識データベースは,新たな,実用的な攻撃面を導入している。この攻撃面に基づいて,RAGに対する最初の知識汚職攻撃であるPoisonedRAGを提案する。
論文参考訳（メタデータ） (2024-02-12T18:28:36Z)
BadChain: Backdoor Chain-of-Thought Prompting for Large Language Models [15.381273199132433]
BadChainは大規模な言語モデル(LLM)に対する最初のバックドア攻撃であり、COTプロンプトを採用している。 2つのCOT戦略と6つのベンチマークタスクに対するBadChainの有効性を示す。 BadChain は LLM にとって深刻な脅威であり、堅牢で効果的な将来の防衛の開発の緊急性を強調している。
論文参考訳（メタデータ） (2024-01-20T04:53:35Z)
Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文参考訳（メタデータ） (2023-12-21T01:08:39Z)
Tensor Trust: Interpretable Prompt Injection Attacks from an Online Game [86.66627242073724]
本稿では,126,000以上のプロンプトインジェクションと46,000以上のプロンプトベースのプロンプトインジェクションに対する「防御」のデータセットを提案する。我々の知る限り、これは現在、命令追従 LLM に対する人間生成の敵例の最大のデータセットである。また、データセットを使用して、2種類のプロンプトインジェクションに対する耐性のベンチマークを作成し、これをプロンプト抽出とプロンプトハイジャックと呼ぶ。
論文参考訳（メタデータ） (2023-11-02T06:13:36Z)
Attack Prompt Generation for Red Teaming and Defending Large Language Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文参考訳（メタデータ） (2023-10-19T06:15:05Z)
Baseline Defenses for Adversarial Attacks Against Aligned Language Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文参考訳（メタデータ） (2023-09-01T17:59:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。