論文の概要: Adversarial Decoding: Generating Readable Documents for Adversarial Objectives
- arxiv url: http://arxiv.org/abs/2410.02163v2
- Date: Thu, 06 Mar 2025 00:58:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 17:59:00.445858
- Title: Adversarial Decoding: Generating Readable Documents for Adversarial Objectives
- Title(参考訳): 逆数デコーディング: 逆数目的のための可読文書の生成
- Authors: Collin Zhang, Tingwei Zhang, Vitaly Shmatikov,
- Abstract要約: 新しい汎用テキスト生成技術は、異なる対向目的に対して読みやすい文書を生成する。
従来の方法は容易に検出可能なジベリッシュを生成するか、あるいは埋め込み類似性を含む目的を扱うことができない。
我々は, RAG中毒, 脱獄, 防御フィルターの回避など, 異なる目的に対して, 敵復号の有効性を計測した。
- 参考スコア(独自算出の注目度): 9.200635465485067
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We design, implement, and evaluate adversarial decoding, a new, generic text generation technique that produces readable documents for different adversarial objectives. Prior methods either produce easily detectable gibberish, or cannot handle objectives that include embedding similarity. In particular, they only work for direct attacks (such as jailbreaking) and cannot produce adversarial text for realistic indirect injection, e.g., documents that (1) are retrieved in RAG systems in response to broad classes of queries, and also (2) adversarially influence subsequent generation. We also show that fluency (low perplexity) is not sufficient to evade filtering. We measure the effectiveness of adversarial decoding for different objectives, including RAG poisoning, jailbreaking, and evasion of defensive filters, and demonstrate that it outperforms existing methods while producing readable adversarial documents.
- Abstract(参考訳): 我々は、異なる敵の目的のために読みやすい文書を生成する新しい汎用テキスト生成技術である、敵の復号を設計、実装、評価する。
従来の方法は容易に検出可能なジベリッシュを生成するか、あるいは埋め込み類似性を含む目的を扱うことができない。
特に, 直接攻撃(脱獄など)にのみ対応し, 現実的な間接的インジェクション(例えば, (1) クエリの幅広いクラスに対応してRAGシステムで検索される文書)を生成できない。
また, フラレンシ(難易度)がフィルタを回避するのに十分でないことも示している。
本稿では,RAG中毒,脱獄,防犯フィルタの回避など,様々な目的に対する敵復号の有効性を計測し,読みやすい敵文書を作成しながら,既存の手法よりも優れていることを示す。
関連論文リスト
- Unsupervised Corpus Poisoning Attacks in Continuous Space for Dense Retrieval [15.141046442409953]
高速かつ効果的である対人コーパス攻撃を提示する。
我々は、ホワイトボックスとブラックボックスの設定の両方による攻撃を検討します。
提案手法は, 対象文書につき2分以内で, 良好な逆例を生成できる。
論文 参考訳(メタデータ) (2025-04-24T18:46:11Z) - Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Ownership Verification with Reasoning [58.57194301645823]
大規模言語モデル (LLM) は、検索強化生成機構 (RAG) を通じて現実のアプリケーションに統合されつつある。
これらの知識基盤を保護するための透かし技術として一般化できる既存の方法は、通常、中毒攻撃を伴う。
我々は、無害な」知識基盤の著作権保護の名称を提案する。
論文 参考訳(メタデータ) (2025-02-10T09:15:56Z) - Riddle Me This! Stealthy Membership Inference for Retrieval-Augmented Generation [18.098228823748617]
本稿では,RAGデータストア内の文書を対象としたメンバシップ推論手法であるInterrogation Attack (IA)を提案する。
ステルス性を維持しながら、たった30クエリで推論に成功したことを実証します。
我々は,様々なRAG構成に対する事前推論攻撃に対して,TPR@1%FPRの2倍の改善が観察された。
論文 参考訳(メタデータ) (2025-02-01T04:01:18Z) - Illusions of Relevance: Using Content Injection Attacks to Deceive Retrievers, Rerankers, and LLM Judges [52.96987928118327]
検索,リランカー,大型言語モデル(LLM)の埋め込みモデルは,コンテンツインジェクション攻撃に対して脆弱であることがわかった。
主な脅威は,(1) 意味不明な内容や有害な内容の挿入,(2) 関連性を高めるために,問合せ全体あるいはキークエリ用語の挿入,の2つである。
本研究は, 注射内容の配置や関連物質と非関連物質とのバランスなど, 攻撃の成功に影響を与える要因を系統的に検討した。
論文 参考訳(メタデータ) (2025-01-30T18:02:15Z) - Zero-Shot Dense Retrieval with Embeddings from Relevance Feedback [17.986392250269606]
Relevance Feedback (ReDE-RF) による実文書埋め込みについて紹介する。
ReDE-RFは、関連性フィードバックにインスパイアされて、関連性推定タスクとして仮説文書生成を再構成することを提案する。
実験の結果,ReDE-RFは最先端のゼロショット高密度検索手法を一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-28T17:40:40Z) - Localizing Factual Inconsistencies in Attributable Text Generation [91.981439746404]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
まず,人間のアノテーションに対するQASemConsistency法の有効性を示す。
そこで我々は,局所的な事実の不整合を自動的に検出するいくつかの手法を実装した。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - On the Vulnerability of Applying Retrieval-Augmented Generation within
Knowledge-Intensive Application Domains [34.122040172188406]
Retrieval-Augmented Generation (RAG)は、知識集約ドメインにおける大規模言語モデル(LLM)の性能向上を実証的に示している。
医学的Q&Aにおいて,RAGは普遍的な毒殺攻撃に弱いことが示唆された。
我々は、RAGの安全な使用を保証するために、新しい検出ベースの防御を開発する。
論文 参考訳(メタデータ) (2024-09-12T02:43:40Z) - Zero-Shot Machine-Generated Text Detection Using Mixture of Large Language Models [35.67613230687864]
大規模言語モデル(LLM)は大規模に訓練され、強力なテキスト生成能力を備えている。
それぞれの強みを組み合わせるための理論的な新しいアプローチを提案する。
種々のジェネレータLSMを用いた実験により,検出のロバスト性を効果的に向上することが示唆された。
論文 参考訳(メタデータ) (2024-09-11T20:55:12Z) - SparseCL: Sparse Contrastive Learning for Contradiction Retrieval [87.02936971689817]
コントラディション検索(Contradiction Search)とは、クエリの内容に明示的に異を唱える文書を識別し、抽出することである。
類似性探索やクロスエンコーダモデルといった既存の手法には、大きな制限がある。
文間の微妙で矛盾したニュアンスを保存するために特別に訓練された文埋め込みを利用するSparseCLを導入する。
論文 参考訳(メタデータ) (2024-06-15T21:57:03Z) - PromptReps: Prompting Large Language Models to Generate Dense and Sparse Representations for Zero-Shot Document Retrieval [76.50690734636477]
本稿では,PmptRepsを提案する。このPmptRepsは,トレーニングを必要とせず,コーパス全体から検索できる機能である。
検索システムは、高密度テキスト埋め込みとスパースバッグ・オブ・ワード表現の両方を利用する。
論文 参考訳(メタデータ) (2024-04-29T04:51:30Z) - Forging the Forger: An Attempt to Improve Authorship Verification via Data Augmentation [52.72682366640554]
著者検証(英語: Authorship Verification, AV)とは、ある特定の著者によって書かれたか、別の人物によって書かれたのかを推測するテキスト分類タスクである。
多くのAVシステムは敵の攻撃に弱いことが示されており、悪意のある著者は、その書体スタイルを隠蔽するか、あるいは他の著者の書体を模倣することによって、積極的に分類者を騙そうとしている。
論文 参考訳(メタデータ) (2024-03-17T16:36:26Z) - Corrective Retrieval Augmented Generation [36.04062963574603]
Retrieval-augmented Generation (RAG) は、検索された文書の関連性に大きく依存しており、検索が失敗した場合のモデルがどのように振る舞うかについての懸念を提起する。
生成の堅牢性を改善するために,CRAG(Corrective Retrieval Augmented Generation)を提案する。
CRAGはプラグアンドプレイであり、様々なRAGベースのアプローチとシームレスに結合できる。
論文 参考訳(メタデータ) (2024-01-29T04:36:39Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - SeqXGPT: Sentence-Level AI-Generated Text Detection [62.3792779440284]
大規模言語モデル(LLM)を用いた文書の合成による文レベル検出の課題について紹介する。
次に,文レベルのAIGT検出機能として,ホワイトボックスLEMのログ確率リストを利用した textbfSequence textbfX (Check) textbfGPT を提案する。
論文 参考訳(メタデータ) (2023-10-13T07:18:53Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - TextShield: Beyond Successfully Detecting Adversarial Sentences in Text
Classification [6.781100829062443]
敵攻撃は、安全クリティカルなアプリケーションへのモデルのデプロイを妨げる、NLPのニューラルネットワークモデルにとって大きな課題となる。
従来の検出方法は、相手文に対して正しい予測を与えることができない。
本稿では,入力文が逆であるか否かを効果的に検出できる唾液度に基づく検出器を提案する。
論文 参考訳(メタデータ) (2023-02-03T22:58:07Z) - Precise Zero-Shot Dense Retrieval without Relevance Labels [60.457378374671656]
仮説文書埋め込み(英: hypothetical Document Embeddings, HyDE)は、ゼロショット高密度検索システムである。
我々は,HyDEが最先端の非教師付き高密度検索器であるContrieverを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-20T18:09:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。