論文の概要: Hidden-in-Plain-Text: A Benchmark for Social-Web Indirect Prompt Injection in RAG
- arxiv url: http://arxiv.org/abs/2601.10923v1
- Date: Fri, 16 Jan 2026 00:50:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.320065
- Title: Hidden-in-Plain-Text: A Benchmark for Social-Web Indirect Prompt Injection in RAG
- Title(参考訳): Hidden-in-Plain-Text: RAGにおけるソーシャルWeb間接プロンプトインジェクションのベンチマーク
- Authors: Haoze Guo, Ziqi Wei,
- Abstract要約: ウェブ対応RAG評価のためのコンパクトで再現可能なベンチマーク・アンド・ハーネスであるOpenRAG-Socを提供する。
このスイートは、交換可能なスパースと密集したレトリバーとデプロイ可能な緩和を組み合わせた社会的なコーパスである。
摂取から生成までのエンドツーエンド評価を標準化し、応答時の1つの応答の攻撃時刻を報告する。
- 参考スコア(独自算出の注目度): 1.8265105635303154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-augmented generation (RAG) systems put more and more emphasis on grounding their responses in user-generated content found on the Web, amplifying both their usefulness and their attack surface. Most notably, indirect prompt injection and retrieval poisoning attack the web-native carriers that survive ingestion pipelines and are very concerning. We provide OpenRAG-Soc, a compact, reproducible benchmark-and-harness for web-facing RAG evaluation under these threats, in a discrete data package. The suite combines a social corpus with interchangeable sparse and dense retrievers and deployable mitigations - HTML/Markdown sanitization, Unicode normalization, and attribution-gated answered. It standardizes end-to-end evaluation from ingestion to generation and reports attacks time of one of the responses at answer time, rank shifts in both sparse and dense retrievers, utility and latency, allowing for apples-to-apples comparisons across carriers and defenses. OpenRAG-Soc targets practitioners who need fast, and realistic tests to track risk and harden deployments.
- Abstract(参考訳): Retrieval-augmented Generation (RAG) システムは、Web上のユーザ生成コンテンツに応答を基盤として、それらの有用性と攻撃面の両方を増幅することにますます重点を置いている。
中でも注目すべきは、間接的インジェクションと検索中毒が、摂取パイプラインを生き残るWebネイティブキャリアを攻撃し、非常に懸念されていることだ。
我々は,これらの脅威下での Web 対応RAG 評価のためのコンパクトで再現可能なベンチマーク・アンド・ハーネスである OpenRAG-Soc を離散データパッケージで提供する。
このスイートはソーシャルコーパスと交換可能なスパースと密集した検索機能、デプロイ可能な緩和 – HTML/Markdownサニタイズ、Unicode正規化、属性付き回答などを組み合わせたものだ。
入力から生成までのエンドツーエンド評価を標準化し、応答の1つに対する攻撃時間、スパースとシークエンス両方のリトリーバーのランクシフト、ユーティリティとレイテンシを標準化し、キャリアとディフェンス間でアップルとアプリケーションの比較を可能にする。
OpenRAG-Socは、リスクの追跡とデプロイメントの強化のために高速で現実的なテストを必要とする実践者をターゲットにしている。
関連論文リスト
- ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - Who Taught the Lie? Responsibility Attribution for Poisoned Knowledge in Retrieval-Augmented Generation [18.511277791848638]
Retrieval-Augmented Generation (RAG)は、外部知識を大規模言語モデルに統合し、応答品質を向上させる。
近年の研究では、RAGシステムは、悪意のあるテキストを知識データベースに挿入し、モデル出力に影響を与える有害な攻撃に対して非常に脆弱であることが示されている。
本稿では,知識データベースのどのテキストが誤読や誤用の原因であるかを識別するブラックボックス責任属性フレームワークであるRAGOriginについて述べる。
論文 参考訳(メタデータ) (2025-09-17T07:38:54Z) - DeRAG: Black-box Adversarial Attacks on Multiple Retrieval-Augmented Generation Applications via Prompt Injection [0.9499594220629591]
アドリシャル・プロンプト・アタックは、レトリーバル・アフュージョンド・ジェネレーション(RAG)システムの信頼性を大きく変える可能性がある。
本稿では, RAGに基づく質問応答に対して, 対角的プロンプト接尾辞を最適化するために, 微分進化(DE)を適用した新しい手法を提案する。
論文 参考訳(メタデータ) (2025-07-20T16:48:20Z) - CyberRAG: An Agentic RAG cyber attack classification and reporting tool [0.3914676152740142]
CyberRAGはモジュール型のエージェントベースのRAGフレームワークで、サイバー攻撃のリアルタイム分類、説明、構造化レポートを提供する。
従来のRAGとは異なり、CyberRAGは動的制御フローと適応推論を可能にするエージェント設計を採用している。
論文 参考訳(メタデータ) (2025-07-03T08:32:19Z) - The Silent Saboteur: Imperceptible Adversarial Attacks against Black-Box Retrieval-Augmented Generation Systems [101.68501850486179]
本稿では,RAGシステムに対する敵攻撃について検討し,その脆弱性を同定する。
このタスクは、ターゲット文書を検索する非知覚的な摂動を見つけることを目的としており、もともとはトップ$k$の候補セットから除外されていた。
本稿では、攻撃者とターゲットRAG間の相互作用を追跡する強化学習ベースのフレームワークであるReGENTを提案する。
論文 参考訳(メタデータ) (2025-05-24T08:19:25Z) - Traceback of Poisoning Attacks to Retrieval-Augmented Generation [18.902988029537365]
研究によると、RAGの毒殺攻撃に対する感受性が明らかとなり、攻撃者は知識データベースに有毒なテキストを注入した。
既存の防衛は、主に推論時間の緩和に焦点を当てており、高度な攻撃に対して不十分であることが証明されている。
本稿では,RAGの最初のトレースバックシステムであるRAGForensicsを紹介し,攻撃に責任を持つ知識データベース内の有毒テキストを識別する。
論文 参考訳(メタデータ) (2025-04-30T14:10:02Z) - Corpus Poisoning via Approximate Greedy Gradient Descent [48.5847914481222]
本稿では,HotFlip法をベースとした高密度検索システムに対する新たな攻撃手法として,近似グレディ・グラディエント・Descentを提案する。
提案手法は,複数のデータセットと複数のレトリバーを用いて高い攻撃成功率を達成し,未知のクエリや新しいドメインに一般化可能であることを示す。
論文 参考訳(メタデータ) (2024-06-07T17:02:35Z) - BadRAG: Identifying Vulnerabilities in Retrieval Augmented Generation of Large Language Models [18.107026036897132]
大規模言語モデル(LLM)は時代遅れの情報と誤ったデータを生成する傾向によって制約される。
Retrieval-Augmented Generation (RAG) は、検索手法の強みと生成モデルを組み合わせることで、これらの制限に対処する。
RAG は LLM に対する新たな攻撃面を導入している。特に RAG データベースは Web などの公開データからしばしば引き出されるためである。
論文 参考訳(メタデータ) (2024-06-03T02:25:33Z) - Certifiably Robust RAG against Retrieval Corruption [58.677292678310934]
Retrieval-augmented Generation (RAG) は、回復汚職攻撃に弱いことが示されている。
本稿では,ロバストRAGを検索汚職攻撃に対する最初の防御フレームワークとして提案する。
論文 参考訳(メタデータ) (2024-05-24T13:44:25Z) - ARES: An Automated Evaluation Framework for Retrieval-Augmented Generation Systems [46.522527144802076]
本稿では,RAGシステム評価のための自動RAG評価システムであるARESを紹介する。
ARESは軽量LM判定器を微調整し、個々のRAG成分の品質を評価する。
コードとデータセットをGithubで公開しています。
論文 参考訳(メタデータ) (2023-11-16T00:39:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。