論文の概要: SearchAttack: Red-Teaming LLMs against Real-World Threats via Framing Unsafe Web Information-Seeking Tasks
- arxiv url: http://arxiv.org/abs/2601.04093v1
- Date: Wed, 07 Jan 2026 16:59:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.696252
- Title: SearchAttack: Red-Teaming LLMs against Real-World Threats via Framing Unsafe Web Information-Seeking Tasks
- Title(参考訳): SearchAttack: 安全でないWebインフォメーション検索タスクによる現実世界の脅威に対するLLMの再コラボレーション
- Authors: Yu Yan, Sheng Sun, Mingfeng Li, Zheming Yang, Chiwei Zhu, Fei Ma, Benfeng Xu, Min Liu,
- Abstract要約: このジレンマにより、Web検索を重要な攻撃面として認識し、red-teamingのためのtextbftextitSearchAttackを提案する。
SearchAttackはWeb検索に有害なセマンティクスをアウトソースし、クエリのスケルトンと断片化されたヒントのみを保持する。
- 参考スコア(独自算出の注目度): 19.28321072381512
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, people have suffered and become increasingly aware of the unreliability gap in LLMs for open and knowledge-intensive tasks, and thus turn to search-augmented LLMs to mitigate this issue. However, when the search engine is triggered for harmful tasks, the outcome is no longer under the LLM's control. Once the returned content directly contains targeted, ready-to-use harmful takeaways, the LLM's safeguards cannot withdraw that exposure. Motivated by this dilemma, we identify web search as a critical attack surface and propose \textbf{\textit{SearchAttack}} for red-teaming. SearchAttack outsources the harmful semantics to web search, retaining only the query's skeleton and fragmented clues, and further steers LLMs to reconstruct the retrieved content via structural rubrics to achieve malicious goals. Extensive experiments are conducted to red-team the search-augmented LLMs for responsible vulnerability assessment. Empirically, SearchAttack demonstrates strong effectiveness in attacking these systems.
- Abstract(参考訳): 近年, オープンかつ知識集約的なタスクにおいて, LLMの信頼性の欠如に悩まされ, ますます認識されるようになり, この問題を緩和するために, 探索強化された LLM に目を向けるようになっている。
しかし、検索エンジンが有害なタスクのためにトリガーされると、その結果はもはやLLMの制御下には置かれない。
返却されたコンテンツに直接標的となる有害なテイクアウトが組み込まれれば、LLMのセーフガードはその露出を取り下げることはできない。
このジレンマに触発され、Web検索をクリティカルアタックサーフェスとして認識し、レッドチームのための \textbf{\textit{SearchAttack}} を提案する。
SearchAttackは、Web検索に有害なセマンティクスをアウトソーシングし、クエリのスケルトンと断片化されたヒントのみを保持し、LLMを使って検索したコンテンツを構造的ルーリックで再構築し、悪意ある目標を達成する。
脆弱性評価に責任を負うために,LLMを探索して再設計する大規模な実験を行った。
経験的に、SearchAttackはこれらのシステムに対する攻撃効果を強く示している。
関連論文リスト
- CREST-Search: Comprehensive Red-teaming for Evaluating Safety Threats in Large Language Models Powered by Web Search [28.45573025341277]
大きな言語モデル(LLM)は、対話、要約、質問応答といったタスクに優れる。
これを解決するために、ウェブ検索はLLMに統合され、オンラインコンテンツへのリアルタイムアクセスを可能にした。
この接続は、敵のプロンプトと信頼できないソースが組み合わさって深刻な脆弱性を引き起こすため、安全性のリスクを増大させる。
我々は,このようなシステムにおけるリスクを体系的に公開するフレームワークであるCREST-Searchを紹介する。
論文 参考訳(メタデータ) (2025-10-09T09:44:14Z) - SafeSearch: Automated Red-Teaming for the Safety of LLM-Based Search Agents [63.70653857721785]
我々は、低品質な検索結果の出現率と、エージェントの動作を誤る可能性を実証する2つの実験を行った。
この脅威に対処するため、私たちは、体系的、スケーラブルで、コスト効率のよい自動化されたレッドチームフレームワークを導入しました。
論文 参考訳(メタデータ) (2025-09-28T07:05:17Z) - Large Language Models powered Malicious Traffic Detection: Architecture, Opportunities and Case Study [12.381768120279771]
大規模言語モデル(LLM)は膨大なテキストコーパスで訓練される。
悪意のあるトラフィック検出においてLLMの潜在能力を最大限に活用することに注力する。
本稿では,LLMを用いたDDoS検出の設計を事例として紹介する。
論文 参考訳(メタデータ) (2025-03-24T09:40:46Z) - How to Protect Yourself from 5G Radiation? Investigating LLM Responses to Implicit Misinformation [35.365004091470944]
大規模言語モデル(LLM)は多様なシナリオに広くデプロイされている。
彼らが誤報をうまく広める程度は、重大な安全上の懸念として浮かび上がっている。
私たちは、暗黙の誤報の最初のベンチマークであるEchoMistをキュレートしました。
論文 参考訳(メタデータ) (2025-03-12T17:59:18Z) - Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。
この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。
本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-10T12:42:33Z) - Can LLMs be Fooled? Investigating Vulnerabilities in LLMs [4.927763944523323]
LLM(Large Language Models)の出現は、自然言語処理(NLP)内の様々な領域で大きな人気を集め、膨大なパワーを誇っている。
本稿では,各脆弱性部の知見を合成し,新たな研究・開発の方向性を提案する。
現在の脆弱性の焦点を理解することで、将来のリスクを予測し軽減できます。
論文 参考訳(メタデータ) (2024-07-30T04:08:00Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - MART: Improving LLM Safety with Multi-round Automatic Red-Teaming [72.2127916030909]
本稿では,自動対向的なプロンプト書き込みと安全な応答生成の両方を組み込んだMulti-round Automatic Red-Teaming(MART)手法を提案する。
敵のプロンプトベンチマークでは、安全アライメントが制限されたLDMの違反率は、MARTの4ラウンド後に84.7%まで減少する。
特に、非敵対的なプロンプトに対するモデルの有用性は反復を通して安定しており、LLMは命令に対する強い性能を維持していることを示している。
論文 参考訳(メタデータ) (2023-11-13T19:13:29Z) - LLM Censorship: A Machine Learning Challenge or a Computer Security
Problem? [52.71988102039535]
セマンティック検閲は決定不能な問題として認識できることを示す。
我々は、知識のある攻撃者が不寛容なアウトプットを再構築できるため、これらの課題はセマンティックな検閲を超えて拡張されていると論じる。
論文 参考訳(メタデータ) (2023-07-20T09:25:02Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。