論文の概要: Unsafe LLM-Based Search: Quantitative Analysis and Mitigation of Safety Risks in AI Web Search
- arxiv url: http://arxiv.org/abs/2502.04951v3
- Date: Fri, 13 Jun 2025 04:49:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 15:41:31.044487
- Title: Unsafe LLM-Based Search: Quantitative Analysis and Mitigation of Safety Risks in AI Web Search
- Title(参考訳): 安全でないLLM検索:AI Webサーチにおける安全性リスクの定量分析と軽減
- Authors: Zeren Luo, Zifan Peng, Yule Liu, Zhen Sun, Mingchen Li, Jingyi Zheng, Xinlei He,
- Abstract要約: 7 つの生産 AIPSE の安全リスク定量化を行う。
その結果,AIPSEは悪質なURLを含む有害なコンテンツを頻繁に生成することがわかった。
GPT-4.1ベースのコンテンツリファインメントツールとURL検出機能を備えたエージェントベースディフェンスを開発した。
- 参考スコア(独自算出の注目度): 20.796363884152466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Large Language Models (LLMs) have significantly enhanced the capabilities of AI-Powered Search Engines (AIPSEs), offering precise and efficient responses by integrating external databases with pre-existing knowledge. However, we observe that these AIPSEs raise risks such as quoting malicious content or citing malicious websites, leading to harmful or unverified information dissemination. In this study, we conduct the first safety risk quantification on seven production AIPSEs by systematically defining the threat model, risk type, and evaluating responses to various query types. With data collected from PhishTank, ThreatBook, and LevelBlue, our findings reveal that AIPSEs frequently generate harmful content that contains malicious URLs even with benign queries (e.g., with benign keywords). We also observe that directly querying a URL will increase the number of main risk-inclusive responses, while querying with natural language will slightly mitigate such risk. Compared to traditional search engines, AIPSEs outperform in both utility and safety. We further perform two case studies on online document spoofing and phishing to show the ease of deceiving AIPSEs in the real-world setting. To mitigate these risks, we develop an agent-based defense with a GPT-4.1-based content refinement tool and a URL detector. Our evaluation shows that our defense can effectively reduce the risk, with only a minor cost of reducing available information by approximately 10.7%. Our research highlights the urgent need for robust safety measures in AIPSEs.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、AIパワー検索エンジン(AIPSE)の機能を大幅に強化し、既存の知識と外部データベースを統合することで、正確かつ効率的な応答を提供する。
しかし,これらのAIPSEは悪意のあるコンテンツを引用したり,悪意のあるウェブサイトを引用したりするリスクを増大させ,有害な情報や不確実な情報発信につながることが観察された。
本研究では,脅威モデルとリスクタイプを体系的に定義し,各種クエリタイプに対する応答を評価することにより,第1の安全リスク定量化を行う。
PhishTank、ThreatBook、LevelBlueから収集されたデータから、AIPSEは、良質なクエリ(例えば、良質なキーワードを含む)でさえ悪質なURLを含む有害なコンテンツを頻繁に生成することがわかった。
また、URLを直接クエリすることで、主要なリスク非包括的なレスポンスの数が増加し、自然言語によるクエリは、そのようなリスクをわずかに軽減する。
従来の検索エンジンと比較して、AIPSEは実用性と安全性の両方で優れています。
さらに,オンライン文書の偽造とフィッシングに関する2つの事例研究を行い,実世界におけるAIPSEの偽造の容易性を示す。
これらのリスクを軽減するため、GPT-4.1ベースのコンテンツリファインメントツールとURL検出器を備えたエージェントベースのディフェンスを開発した。
本評価は, 使用可能な情報量を約10.7%削減するための少額のコストで, 防衛が効果的にリスクを低減できることを示唆する。
本研究は,AIPSEにおける堅牢な安全対策の必要性を浮き彫りにするものである。
関連論文リスト
- LLM-Assisted Proactive Threat Intelligence for Automated Reasoning [2.0427650128177]
本研究は、リアルタイムサイバーセキュリティ脅威の検出と応答を強化する新しいアプローチを提案する。
我々は,大規模言語モデル (LLM) とレトリーバル拡張生成システム (RAG) を連続的な脅威知能フィードに統合する。
論文 参考訳(メタデータ) (2025-04-01T05:19:33Z) - MM-PoisonRAG: Disrupting Multimodal RAG with Local and Global Poisoning Attacks [109.53357276796655]
Retrieval Augmented Generation (RAG) を備えたマルチモーダル大言語モデル(MLLM)
RAGはクエリ関連外部知識の応答を基盤としてMLLMを強化する。
この依存は、知識中毒攻撃(英語版)という、危険だが未発見の安全リスクを生じさせる。
本稿では,2つの攻撃戦略を持つ新しい知識中毒攻撃フレームワークMM-PoisonRAGを提案する。
論文 参考訳(メタデータ) (2025-02-25T04:23:59Z) - Risks and NLP Design: A Case Study on Procedural Document QA [52.557503571760215]
より具体的なアプリケーションやユーザに対して分析を専門化すれば,ユーザに対するリスクや害の明確な評価が可能になる,と我々は主張する。
リスク指向のエラー分析を行い、リスクの低減とパフォーマンスの向上を図り、将来のシステムの設計を通知する。
論文 参考訳(メタデータ) (2024-08-16T17:23:43Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - "Glue pizza and eat rocks" -- Exploiting Vulnerabilities in Retrieval-Augmented Generative Models [74.05368440735468]
Retrieval-Augmented Generative (RAG)モデルにより大規模言語モデル(LLM)が強化される
本稿では,これらの知識基盤の開放性を敵が活用できるセキュリティ上の脅威を示す。
論文 参考訳(メタデータ) (2024-06-26T05:36:23Z) - Threat Modelling and Risk Analysis for Large Language Model (LLM)-Powered Applications [0.0]
大規模言語モデル(LLM)は、高度な自然言語処理機能を提供することによって、様々なアプリケーションに革命をもたらした。
本稿では,LSMを利用したアプリケーションに適した脅威モデリングとリスク分析について検討する。
論文 参考訳(メタデータ) (2024-06-16T16:43:58Z) - Risk and Response in Large Language Models: Evaluating Key Threat Categories [6.436286493151731]
本稿では,Large Language Models (LLMs) におけるリスクアセスメントのプレッシャーについて考察する。
人為的レッドチームデータセットを利用することで、情報ハザード、悪用、差別/憎しみのあるコンテンツなど、主要なリスクカテゴリを分析します。
以上の結果から,LSMは情報ハザードを有害とみなす傾向があることが示唆された。
論文 参考訳(メタデータ) (2024-03-22T06:46:40Z) - Mapping LLM Security Landscapes: A Comprehensive Stakeholder Risk Assessment Proposal [0.0]
本稿では,従来のシステムにおけるリスク評価手法のようなツールを用いたリスク評価プロセスを提案する。
我々は、潜在的な脅威要因を特定し、脆弱性要因に対して依存するシステムコンポーネントをマッピングするためのシナリオ分析を行う。
3つの主要株主グループに対する脅威もマップ化しています。
論文 参考訳(メタデータ) (2024-03-20T05:17:22Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - A Security Risk Taxonomy for Prompt-Based Interaction With Large Language Models [5.077431021127288]
本稿では,大規模言語モデル(LLM)によるセキュリティリスクに着目し,現在の研究のギャップに対処する。
我々の研究は,ユーザモデル通信パイプラインに沿ったセキュリティリスクの分類を提案し,一般的に使用されている機密性,完全性,可用性(CIA)3つのトライアドと並行して,ターゲットタイプと攻撃タイプによる攻撃を分類する。
論文 参考訳(メタデータ) (2023-11-19T20:22:05Z) - On the Security Risks of Knowledge Graph Reasoning [71.64027889145261]
我々は、敵の目標、知識、攻撃ベクトルに応じて、KGRに対するセキュリティ脅威を体系化する。
我々は、このような脅威をインスタンス化する新しいタイプの攻撃であるROARを提示する。
ROARに対する潜在的な対策として,潜在的に有毒な知識のフィルタリングや,対向的な拡張クエリによるトレーニングについて検討する。
論文 参考訳(メタデータ) (2023-05-03T18:47:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。