論文の概要: Deep Research Brings Deeper Harm
- arxiv url: http://arxiv.org/abs/2510.11851v1
- Date: Mon, 13 Oct 2025 19:05:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.069987
- Title: Deep Research Brings Deeper Harm
- Title(参考訳): より深いハームをもたらすDeep Research
- Authors: Shuo Chen, Zonggen Li, Zhen Han, Bailan He, Tong Liu, Haokun Chen, Georg Groh, Philip Torr, Volker Tresp, Jindong Gu,
- Abstract要約: LLM(Large Language Models)上に構築されたDeep Research (DR)エージェントは、複雑な多段階の研究を行うことができる。
これは特に、バイオセキュリティのような高度な知識集約ドメインにおいて関係している。
エージェントの計画に悪意あるサブゴールを注入するプランインジェクション(Plan Injection)と、有害なクエリを学術研究の質問として再編成するIntent Hijack(Intent Hijack)という2つの新しいジェイルブレイク戦略を提案する。
- 参考スコア(独自算出の注目度): 64.71728362573624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Research (DR) agents built on Large Language Models (LLMs) can perform complex, multi-step research by decomposing tasks, retrieving online information, and synthesizing detailed reports. However, the misuse of LLMs with such powerful capabilities can lead to even greater risks. This is especially concerning in high-stakes and knowledge-intensive domains such as biosecurity, where DR can generate a professional report containing detailed forbidden knowledge. Unfortunately, we have found such risks in practice: simply submitting a harmful query, which a standalone LLM directly rejects, can elicit a detailed and dangerous report from DR agents. This highlights the elevated risks and underscores the need for a deeper safety analysis. Yet, jailbreak methods designed for LLMs fall short in exposing such unique risks, as they do not target the research ability of DR agents. To address this gap, we propose two novel jailbreak strategies: Plan Injection, which injects malicious sub-goals into the agent's plan; and Intent Hijack, which reframes harmful queries as academic research questions. We conducted extensive experiments across different LLMs and various safety benchmarks, including general and biosecurity forbidden prompts. These experiments reveal 3 key findings: (1) Alignment of the LLMs often fail in DR agents, where harmful prompts framed in academic terms can hijack agent intent; (2) Multi-step planning and execution weaken the alignment, revealing systemic vulnerabilities that prompt-level safeguards cannot address; (3) DR agents not only bypass refusals but also produce more coherent, professional, and dangerous content, compared with standalone LLMs. These results demonstrate a fundamental misalignment in DR agents and call for better alignment techniques tailored to DR agents. Code and datasets are available at https://chenxshuo.github.io/deeper-harm.
- Abstract(参考訳): LLM(Large Language Models)上に構築されたDeep Research (DR)エージェントは、タスクを分解し、オンライン情報を取得し、詳細なレポートを合成することで、複雑な多段階の研究を行うことができる。
しかし、そのような強力な能力を持つLLMの誤用は、さらに大きなリスクをもたらす可能性がある。
これは特にバイオセキュリティのような高度な知識集約ドメインにおいて関係しており、DRは詳細な禁じられた知識を含む専門的なレポートを生成することができる。
LLMが直接拒否する有害なクエリを単に提出するだけで、DRエージェントから詳細で危険なレポートを導き出せるのです。
これは高いリスクを強調し、より深い安全分析の必要性を強調します。
しかし、LDM向けに設計されたジェイルブレイク法は、DRエージェントの研究能力を目標としないため、そのようなユニークなリスクを露呈するのに不足している。
このギャップに対処するために、エージェントの計画に悪意あるサブゴールを注入するプランインジェクション(Plan Injection)と、有害なクエリを学術研究の質問として再編成するIntent Hijack(Intent Hijack)という2つの新しいジェイルブレイク戦略を提案する。
一般およびバイオセキュリティ禁止プロンプトを含む,様々なLSMおよび各種安全ベンチマークの広範な実験を行った。
これらの実験は,(1) DRエージェントにおいてLLMのアライメントが失敗することが多いこと,(2) 多段階の計画と実行がアライメントを弱めること,(3) DRエージェントは拒絶をバイパスするだけでなく,スタンドアローンのLLMよりも一貫性,専門的,危険な内容を生み出すこと,の3つの重要な知見を提示した。
これらの結果から,DR剤の基本的な相違が示され,DR剤に適したアライメント技術が求められた。
コードとデータセットはhttps://chenxshuo.github.io/deeper-harm.orgで公開されている。
関連論文リスト
- Instruction Boundary: Quantifying Biases in LLM Reasoning under Various Coverage [34.247904738521136]
異なる命令形式がLLM推論能力をどのように促進するか、それとも誤解を招くかを検討する。
本稿では,インストラクション境界の概念を導入し,異なるレベルのプロンプトカバレッジが推論バイアスにどのように寄与するかを系統的に分析する。
異なる種類の命令境界条件下でスパースラベルを識別するLLMの能力を定量化する統合フレームワークであるBiasDetectorを提案する。
論文 参考訳(メタデータ) (2025-09-24T16:15:26Z) - Paper Summary Attack: Jailbreaking LLMs through LLM Safety Papers [61.57691030102618]
我々は新しいジェイルブレイク手法であるペーパー・サプリメント・アタック(llmnamePSA)を提案する。
攻撃に焦点をあてたLLM安全紙からコンテンツを合成し、敵のプロンプトテンプレートを構築する。
実験では、ベースLLMだけでなく、Deepseek-R1のような最先端の推論モデルにも重大な脆弱性がある。
論文 参考訳(メタデータ) (2025-07-17T18:33:50Z) - Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。
この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。
本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-10T12:42:33Z) - Targeting the Core: A Simple and Effective Method to Attack RAG-based Agents via Direct LLM Manipulation [4.241100280846233]
大規模言語モデル(LLM)を駆使したAIエージェントは、シームレスで自然な、コンテキスト対応のコミュニケーションを可能にすることによって、人間とコンピュータのインタラクションを変革した。
本稿では,AIエージェント内のLLMコアを標的とした敵攻撃という,重大な脆弱性について検討する。
論文 参考訳(メタデータ) (2024-12-05T18:38:30Z) - AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents [84.96249955105777]
LLMエージェントは誤用された場合、より大きなリスクを引き起こすが、その堅牢性は未発見のままである。
我々は, LLMエージェント誤用の研究を容易にするために, AgentHarmと呼ばれる新しいベンチマークを提案する。
主要なLLMは、ジェイルブレイクなしで悪意のあるエージェント要求に驚くほど準拠している。
論文 参考訳(メタデータ) (2024-10-11T17:39:22Z) - F2A: An Innovative Approach for Prompt Injection by Utilizing Feign Security Detection Agents [0.0]
大規模言語モデルは、安全検出剤に対する盲目的な信頼を示す。
本論文は、F2A(Feign Agent Attack)と名づけられた攻撃を提案する。
実験には、偽の安全検出結果がプロンプトに注入される様々なシナリオが含まれていた。
論文 参考訳(メタデータ) (2024-10-11T12:49:05Z) - Evil Geniuses: Delving into the Safety of LLM-based Agents [35.49857256840015]
大言語モデル(LLM)は、大言語モデル(LLM)で再活性化されている。
本稿では, LLMをベースとしたエージェントの安全性について, エージェント量, 役割定義, 攻撃レベルという3つの観点から検討する。
論文 参考訳(メタデータ) (2023-11-20T15:50:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。