論文の概要: The Cost of Thinking: Increased Jailbreak Risk in Large Language Models
- arxiv url: http://arxiv.org/abs/2508.10032v1
- Date: Sat, 09 Aug 2025 09:49:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.031903
- Title: The Cost of Thinking: Increased Jailbreak Risk in Large Language Models
- Title(参考訳): 思考のコスト:大規模言語モデルにおける脱獄リスクの増加
- Authors: Fan Yang,
- Abstract要約: 我々は,AdvBench と HarmBench の 9 個の LLM を評価し,LLM における攻撃的思考モードの成功率は,非思考モードの成功率よりもほぼ高いことを示した。
本稿では, LLMの内部的思考プロセスに, LLMの「特定の思考トークン」を付加することにより, LLMの内部的思考プロセスを明示的にガイドする, LLMに対する安全な思考介入手法を提案する。
- 参考スコア(独自算出の注目度): 3.6119958671506707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Thinking mode has always been regarded as one of the most valuable modes in LLMs. However, we uncover a surprising and previously overlooked phenomenon: LLMs with thinking mode are more easily broken by Jailbreak attack. We evaluate 9 LLMs on AdvBench and HarmBench and find that the success rate of attacking thinking mode in LLMs is almost higher than that of non-thinking mode. Through large numbers of sample studies, it is found that for educational purposes and excessively long thinking lengths are the characteristics of successfully attacked data, and LLMs also give harmful answers when they mostly know that the questions are harmful. In order to alleviate the above problems, this paper proposes a method of safe thinking intervention for LLMs, which explicitly guides the internal thinking processes of LLMs by adding "specific thinking tokens" of LLMs to the prompt. The results demonstrate that the safe thinking intervention can significantly reduce the attack success rate of LLMs with thinking mode.
- Abstract(参考訳): 思考モードは、常にLLMにおいて最も価値のあるモードの1つと見なされてきた。
しかし、これまで見過ごされていた驚くべき現象が明らかになった: 思考モードのLSMは、ジェイルブレイク攻撃により、より容易に壊れる。
我々は,AdvBench と HarmBench の 9 個の LLM を評価し,LLM における攻撃的思考モードの成功率は,非思考モードの成功率よりもほぼ高いことを示した。
多くのサンプル研究を通して、教育目的と過度に長い思考期間が攻撃されたデータの特徴であり、LSMは質問が有害であることを主に知っている場合に有害な回答を与える。
そこで本研究では, LLMの内部思考プロセスに, LLMの「特定の思考トークン」を付加することにより, LLMの内部思考プロセスを明示的にガイドする, LLMに対する安全な思考介入手法を提案する。
その結果, 安全な思考介入は, 思考モードによるLDMの攻撃成功率を大幅に低下させる可能性が示唆された。
関連論文リスト
- Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。
この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。
本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-10T12:42:33Z) - Subtoxic Questions: Dive Into Attitude Change of LLM's Response in Jailbreak Attempts [13.176057229119408]
Prompt Jailbreakingの言語モデル(LLM)がますます注目を集めています。
本稿では,ジェイルブレイクのプロンプトに対して本質的により敏感な,対象とする一連の質問に焦点をあてて,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-04-12T08:08:44Z) - When Do LLMs Need Retrieval Augmentation? Mitigating LLMs' Overconfidence Helps Retrieval Augmentation [66.01754585188739]
大規模言語モデル(LLM)は、特定の知識を持っていないことを知るのが困難であることが判明した。
Retrieval Augmentation (RA)はLLMの幻覚を緩和するために広く研究されている。
本稿では,LLMの知識境界に対する認識を高めるためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2024-02-18T04:57:19Z) - Play Guessing Game with LLM: Indirect Jailbreak Attack with Implicit
Clues [16.97760778679782]
本稿では, LLM の防御戦略を回避し, 悪意のある応答を得る, 間接的ジェイルブレイク攻撃手法である Puzzler を提案する。
実験の結果,Puzzler はクローズドソース LLM 上で96.6% のクエリ成功率を達成した。
最先端のjailbreak検出アプローチに対してテストすると、Puzzlerはベースラインよりも検出を回避するのに効果的であることを証明している。
論文 参考訳(メタデータ) (2024-02-14T11:11:51Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。