論文の概要: Adversarial Decoding: Generating Readable Documents for Adversarial Objectives
- arxiv url: http://arxiv.org/abs/2410.02163v2
- Date: Thu, 06 Mar 2025 00:58:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 15:56:39.925273
- Title: Adversarial Decoding: Generating Readable Documents for Adversarial Objectives
- Title(参考訳): 逆数デコーディング: 逆数目的のための可読文書の生成
- Authors: Collin Zhang, Tingwei Zhang, Vitaly Shmatikov,
- Abstract要約: 新しい汎用テキスト生成技術は、異なる対向目的に対して読みやすい文書を生成する。
従来の方法は容易に検出可能なジベリッシュを生成するか、あるいは埋め込み類似性を含む目的を扱うことができない。
我々は, RAG中毒, 脱獄, 防御フィルターの回避など, 異なる目的に対して, 敵復号の有効性を計測した。
- 参考スコア(独自算出の注目度): 9.200635465485067
- License:
- Abstract: We design, implement, and evaluate adversarial decoding, a new, generic text generation technique that produces readable documents for different adversarial objectives. Prior methods either produce easily detectable gibberish, or cannot handle objectives that include embedding similarity. In particular, they only work for direct attacks (such as jailbreaking) and cannot produce adversarial text for realistic indirect injection, e.g., documents that (1) are retrieved in RAG systems in response to broad classes of queries, and also (2) adversarially influence subsequent generation. We also show that fluency (low perplexity) is not sufficient to evade filtering. We measure the effectiveness of adversarial decoding for different objectives, including RAG poisoning, jailbreaking, and evasion of defensive filters, and demonstrate that it outperforms existing methods while producing readable adversarial documents.
- Abstract(参考訳): 我々は、異なる敵の目的のために読みやすい文書を生成する新しい汎用テキスト生成技術である、敵の復号を設計、実装、評価する。
従来の方法は容易に検出可能なジベリッシュを生成するか、あるいは埋め込み類似性を含む目的を扱うことができない。
特に, 直接攻撃(脱獄など)にのみ対応し, 現実的な間接的インジェクション(例えば, (1) クエリの幅広いクラスに対応してRAGシステムで検索される文書)を生成できない。
また, フラレンシ(難易度)がフィルタを回避するのに十分でないことも示している。
本稿では,RAG中毒,脱獄,防犯フィルタの回避など,様々な目的に対する敵復号の有効性を計測し,読みやすい敵文書を作成しながら,既存の手法よりも優れていることを示す。
関連論文リスト
- Cognitive-Aligned Document Selection for Retrieval-augmented Generation [2.9060210098040855]
本稿では,クエリを動的に更新し,高品質で信頼性の高い検索文書をフィルタリングするGGatrievalを提案する。
ユーザクエリを構文コンポーネントにパースし、検索したドキュメントときめ細かいグラウンドアライメントを実行する。
提案手法では,検索した文書をフィルタリングするための新しい基準を導入し,ターゲット情報を取得するための人的戦略を密にエミュレートする。
論文 参考訳(メタデータ) (2025-02-17T13:00:15Z) - Dataset Protection via Watermarked Canaries in Retrieval-Augmented LLMs [67.0310240737424]
本稿では,テキストデータセットの所有権を保護し,RA-LLMによる不正使用を効果的に検出するための新しいアプローチを提案する。
提案手法では,IPデータセットに特別に設計されたカナリア文書を挿入することにより,元のデータを完全に変更することなく保護する。
検出プロセス中、カナリア文書をクエリし、RA-LLMの応答を分析することにより、不正使用を識別する。
論文 参考訳(メタデータ) (2025-02-15T04:56:45Z) - RetroLLM: Empowering Large Language Models to Retrieve Fine-grained Evidence within Generation [21.764973680014368]
RetroLLMは、検索と生成を単一の凝集プロセスに統合する統合フレームワークである。
制約付きエビデンス生成の過程での偽プルーニングを軽減するために,階層的FM-Index制約を導入する。
5つのオープンドメインQAデータセットの実験では、ドメイン内タスクとドメイン外タスクの両方にわたって、RetroLLMの優れたパフォーマンスが示されている。
論文 参考訳(メタデータ) (2024-12-16T16:03:25Z) - Localizing Factual Inconsistencies in Attributable Text Generation [91.981439746404]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
まず,人間のアノテーションに対するQASemConsistency法の有効性を示す。
そこで我々は,局所的な事実の不整合を自動的に検出するいくつかの手法を実装した。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - On the Vulnerability of Applying Retrieval-Augmented Generation within
Knowledge-Intensive Application Domains [34.122040172188406]
Retrieval-Augmented Generation (RAG)は、知識集約ドメインにおける大規模言語モデル(LLM)の性能向上を実証的に示している。
医学的Q&Aにおいて,RAGは普遍的な毒殺攻撃に弱いことが示唆された。
我々は、RAGの安全な使用を保証するために、新しい検出ベースの防御を開発する。
論文 参考訳(メタデータ) (2024-09-12T02:43:40Z) - SparseCL: Sparse Contrastive Learning for Contradiction Retrieval [87.02936971689817]
コントラディション検索(Contradiction Search)とは、クエリの内容に明示的に異を唱える文書を識別し、抽出することである。
類似性探索やクロスエンコーダモデルといった既存の手法には、大きな制限がある。
文間の微妙で矛盾したニュアンスを保存するために特別に訓練された文埋め込みを利用するSparseCLを導入する。
論文 参考訳(メタデータ) (2024-06-15T21:57:03Z) - PromptReps: Prompting Large Language Models to Generate Dense and Sparse Representations for Zero-Shot Document Retrieval [76.50690734636477]
本稿では,PmptRepsを提案する。このPmptRepsは,トレーニングを必要とせず,コーパス全体から検索できる機能である。
検索システムは、高密度テキスト埋め込みとスパースバッグ・オブ・ワード表現の両方を利用する。
論文 参考訳(メタデータ) (2024-04-29T04:51:30Z) - Corrective Retrieval Augmented Generation [36.04062963574603]
Retrieval-augmented Generation (RAG) は、検索された文書の関連性に大きく依存しており、検索が失敗した場合のモデルがどのように振る舞うかについての懸念を提起する。
生成の堅牢性を改善するために,CRAG(Corrective Retrieval Augmented Generation)を提案する。
CRAGはプラグアンドプレイであり、様々なRAGベースのアプローチとシームレスに結合できる。
論文 参考訳(メタデータ) (2024-01-29T04:36:39Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - SeqXGPT: Sentence-Level AI-Generated Text Detection [62.3792779440284]
大規模言語モデル(LLM)を用いた文書の合成による文レベル検出の課題について紹介する。
次に,文レベルのAIGT検出機能として,ホワイトボックスLEMのログ確率リストを利用した textbfSequence textbfX (Check) textbfGPT を提案する。
論文 参考訳(メタデータ) (2023-10-13T07:18:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。