論文の概要: TrustRAG: Enhancing Robustness and Trustworthiness in RAG
- arxiv url: http://arxiv.org/abs/2501.00879v2
- Date: Sun, 12 Jan 2025 17:03:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 23:17:56.372973
- Title: TrustRAG: Enhancing Robustness and Trustworthiness in RAG
- Title(参考訳): TrustRAG:RAGのロバスト性と信頼性を高める
- Authors: Huichi Zhou, Kin-Hei Lee, Zhonghao Zhan, Yue Chen, Zhenhao Li, Zhaoyang Wang, Hamed Haddadi, Emine Yilmaz,
- Abstract要約: TrustRAGは、世代ごとに取得される前に、妥協されたコンテンツと無関係なコンテンツを体系的にフィルタリングするフレームワークである。
TrustRAGは、既存のアプローチと比較して、検索精度、効率、攻撃抵抗を大幅に改善している。
- 参考スコア(独自算出の注目度): 31.231916859341865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) systems enhance large language models (LLMs) by integrating external knowledge sources, enabling more accurate and contextually relevant responses tailored to user queries. However, these systems remain vulnerable to corpus poisoning attacks that can significantly degrade LLM performance through the injection of malicious content. To address these challenges, we propose TrustRAG, a robust framework that systematically filters compromised and irrelevant contents before they are retrieved for generation. Our approach implements a two-stage defense mechanism: At the first stage, it employs K-means clustering to identify potential attack patterns in retrieved documents using cosine similarity and ROUGE metrics as guidance, effectively isolating suspicious content. Secondly, it performs a self-assessment which detects malicious documents and resolves discrepancies between the model's internal knowledge and external information. TrustRAG functions as a plug-and-play, training-free module that integrates seamlessly with any language model, whether open or closed-source. In addition, TrustRAG maintains high contextual relevance while strengthening defenses against corpus poisoning attacks. Through extensive experimental validation, we demonstrate that TrustRAG delivers substantial improvements in retrieval accuracy, efficiency, and attack resistance compared to existing approaches across multiple model architectures and datasets. We have made TrustRAG available as open-source software at \url{https://github.com/HuichiZhou/TrustRAG}.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) システムは、外部の知識ソースを統合することで、より大きな言語モデル(LLM)を強化する。
しかし、これらのシステムは、悪意のあるコンテンツの注入によってLLM性能を著しく低下させるコーパス中毒攻撃に対して脆弱なままである。
これらの課題に対処するため,我々はTrustRAGを提案する。
最初の段階では、コサイン類似度とROUGEメトリクスをガイダンスとして、検索した文書の潜在的な攻撃パターンを特定するためにK平均クラスタリングを使用し、疑わしいコンテンツを効果的に分離する。
次に、悪意のある文書を検出し、モデルの内部知識と外部情報の相違を解消する自己評価を行う。
TrustRAGは,オープンソースでもクローズドソースでも,任意の言語モデルとシームレスに統合可能な,プラグアンドプレイのトレーニングフリーモジュールとして機能する。
さらに、TrustRAGは、コーパス中毒に対する防御を強化しながら、高い文脈的関連性を維持している。
大規模な実験的検証を通じて、TrustRAGは、複数のモデルアーキテクチャやデータセットにまたがる既存のアプローチと比較して、検索精度、効率、アタック耐性を大幅に改善することを示した。
我々は、TrustRAGをオープンソースソフトウェアとして、 \url{https://github.com/HuichiZhou/TrustRAG}で利用可能にしました。
関連論文リスト
- Detecting Malicious Source Code in PyPI Packages with LLMs: Does RAG Come in Handy? [6.7341750484636975]
PyPIのようなオープンソースのエコシステムにおける悪意あるソフトウェアパッケージは、セキュリティ上のリスクを増大させる。
本研究では,Large Language Models (LLM) とRetrieval-Augmented Generation (RAG) の有効性を実証的に評価する。
論文 参考訳(メタデータ) (2025-04-18T16:11:59Z) - Lie Detector: Unified Backdoor Detection via Cross-Examination Framework [68.45399098884364]
半正直な設定で一貫したバックドア検出フレームワークを提案する。
本手法は,SoTAベースラインよりも5.4%,1.6%,11.9%の精度で検出性能が向上する。
特に、マルチモーダルな大規模言語モデルにおいて、バックドアを効果的に検出するのは、これが初めてである。
論文 参考訳(メタデータ) (2025-03-21T06:12:06Z) - MES-RAG: Bringing Multi-modal, Entity-Storage, and Secure Enhancements to RAG [65.0423152595537]
本稿では,エンティティ固有のクエリ処理を強化し,正確でセキュアで一貫した応答を提供するMES-RAGを提案する。
MES-RAGは、データアクセスの前に保護を適用してシステムの整合性を確保するための積極的なセキュリティ対策を導入している。
実験の結果,MES-RAGは精度とリコールの両方を著しく改善し,質問応答の安全性と有用性を向上する効果が示された。
論文 参考訳(メタデータ) (2025-03-17T08:09:42Z) - TrustRAG: An Information Assistant with Retrieval Augmented Generation [73.84864898280719]
TrustRAGは、インデックス付け、検索、生成という3つの視点から、acRAGを強化する新しいフレームワークである。
我々はTrustRAGフレームワークをオープンソース化し、抜粋ベースの質問応答タスク用に設計されたデモスタジオを提供する。
論文 参考訳(メタデータ) (2025-02-19T13:45:27Z) - Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Ownership Verification with Reasoning [58.57194301645823]
大規模言語モデル (LLM) は、検索強化生成機構 (RAG) を通じて現実のアプリケーションに統合されつつある。
これらの知識基盤を保護するための透かし技術として一般化できる既存の方法は、通常、中毒攻撃を伴う。
我々は、無害な」知識基盤の著作権保護の名称を提案する。
論文 参考訳(メタデータ) (2025-02-10T09:15:56Z) - Semantic Tokens in Retrieval Augmented Generation [0.0]
本稿では,確率的RAGシステムと決定論的に検証可能な応答のギャップを埋めるための評価モジュールを導入した新しい比較RAGシステムを提案する。
このフレームワークは、高い精度と検証可能性を必要とする領域において、より信頼性が高くスケーラブルな質問応答アプリケーションを実現する。
論文 参考訳(メタデータ) (2024-12-03T16:52:06Z) - In-Context Experience Replay Facilitates Safety Red-Teaming of Text-to-Image Diffusion Models [97.82118821263825]
テキスト・ツー・イメージ(T2I)モデルは目覚ましい進歩を見せているが、有害なコンテンツを生成する可能性はまだMLコミュニティにとって重要な関心事である。
ICERは,解釈可能かつ意味論的に意味のある重要なプロンプトを生成する新しい赤チームフレームワークである。
我々の研究は、より堅牢な安全メカニズムをT2Iシステムで開発するための重要な洞察を提供する。
論文 参考訳(メタデータ) (2024-11-25T04:17:24Z) - UncertaintyRAG: Span-Level Uncertainty Enhanced Long-Context Modeling for Retrieval-Augmented Generation [93.38604803625294]
IncertaintyRAG, a novel approach for long-context Retrieval-Augmented Generation (RAG)について紹介する。
我々は、SNR(Signal-to-Noise Ratio)ベースのスパン不確実性を用いて、テキストチャンク間の類似性を推定する。
不確かさRAGはLLaMA-2-7Bでベースラインを2.03%上回り、最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-03T17:39:38Z) - On the Vulnerability of Applying Retrieval-Augmented Generation within
Knowledge-Intensive Application Domains [34.122040172188406]
Retrieval-Augmented Generation (RAG)は、知識集約ドメインにおける大規模言語モデル(LLM)の性能向上を実証的に示している。
医学的Q&Aにおいて,RAGは普遍的な毒殺攻撃に弱いことが示唆された。
我々は、RAGの安全な使用を保証するために、新しい検出ベースの防御を開発する。
論文 参考訳(メタデータ) (2024-09-12T02:43:40Z) - "Glue pizza and eat rocks" -- Exploiting Vulnerabilities in Retrieval-Augmented Generative Models [74.05368440735468]
Retrieval-Augmented Generative (RAG)モデルにより大規模言語モデル(LLM)が強化される
本稿では,これらの知識基盤の開放性を敵が活用できるセキュリティ上の脅威を示す。
論文 参考訳(メタデータ) (2024-06-26T05:36:23Z) - Pistis-RAG: Enhancing Retrieval-Augmented Generation with Human Feedback [41.88662700261036]
RAGシステムは、セマンティックな関連性だけでは生成品質の向上を保証していない場合に制限に直面している。
我々は、LLMと人間の嗜好をよりよく整合させるために、コンテンツ中心のアプローチで設計された新しいRAGフレームワークであるPristis-RAGを提案する。
論文 参考訳(メタデータ) (2024-06-21T08:52:11Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z) - RoFL: Attestable Robustness for Secure Federated Learning [59.63865074749391]
フェデレートラーニング(Federated Learning)により、多数のクライアントが、プライベートデータを共有することなく、ジョイントモデルをトレーニングできる。
クライアントのアップデートの機密性を保証するため、フェデレートラーニングシステムはセキュアなアグリゲーションを採用している。
悪意のあるクライアントに対する堅牢性を向上させるセキュアなフェデレート学習システムであるRoFLを提案する。
論文 参考訳(メタデータ) (2021-07-07T15:42:49Z) - Detecting Security Fixes in Open-Source Repositories using Static Code
Analyzers [8.716427214870459]
機械学習(ML)アプリケーションにおけるコミットを表現する機能として,既製の静的コードアナライザの出力がどの程度使用されるかを検討する。
埋め込みの構築やMLモデルをトレーニングして、脆弱性修正を含むソースコードコミットを自動的に識別する方法について検討する。
当社のメソッドとcommit2vecの組み合わせは,脆弱性を修正するコミットの自動識別において,最先端技術よりも明確な改善であることがわかった。
論文 参考訳(メタデータ) (2021-05-07T15:57:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。