論文の概要: Highlight & Summarize: RAG without the jailbreaks
- arxiv url: http://arxiv.org/abs/2508.02872v1
- Date: Mon, 04 Aug 2025 20:01:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.667948
- Title: Highlight & Summarize: RAG without the jailbreaks
- Title(参考訳): Highlight & Summarize: 脱獄のないRAG
- Authors: Giovanni Cherubin, Andrew Paverd,
- Abstract要約: 悪意のあるユーザは、特殊なプロンプトを入力して、Large Language Modelsが望ましくないコンテンツを生成したり、意図した目的とは全く異なるタスクを実行することができる。
我々は,これらの攻撃を設計によって防止する検索強化生成(RAG)システムのための新しい設計パターンであるHighlight & Summarize(H&S)を提示し,評価する。
- 参考スコア(独自算出の注目度): 13.121045036871607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preventing jailbreaking and model hijacking of Large Language Models (LLMs) is an important yet challenging task. For example, when interacting with a chatbot, malicious users can input specially crafted prompts to cause the LLM to generate undesirable content or perform a completely different task from its intended purpose. Existing mitigations for such attacks typically rely on hardening the LLM's system prompt or using a content classifier trained to detect undesirable content or off-topic conversations. However, these probabilistic approaches are relatively easy to bypass due to the very large space of possible inputs and undesirable outputs. In this paper, we present and evaluate Highlight & Summarize (H&S), a new design pattern for retrieval-augmented generation (RAG) systems that prevents these attacks by design. The core idea is to perform the same task as a standard RAG pipeline (i.e., to provide natural language answers to questions, based on relevant sources) without ever revealing the user's question to the generative LLM. This is achieved by splitting the pipeline into two components: a highlighter, which takes the user's question and extracts relevant passages ("highlights") from the retrieved documents, and a summarizer, which takes the highlighted passages and summarizes them into a cohesive answer. We describe several possible instantiations of H&S and evaluate their generated responses in terms of correctness, relevance, and response quality. Surprisingly, when using an LLM-based highlighter, the majority of H&S responses are judged to be better than those of a standard RAG pipeline.
- Abstract(参考訳): 大規模言語モデル(LLM)のジェイルブレイクとモデルハイジャックの防止は重要な課題である。
例えば、チャットボットと対話する場合、悪意のあるユーザは特殊なプロンプトを入力すれば、LLMは望ましくないコンテンツを生成したり、意図した目的とは全く異なるタスクを実行することができる。
このような攻撃に対する既存の軽減策は、通常、LLMのシステムプロンプトの強化や、望ましくないコンテンツや話題外の会話を検出するために訓練されたコンテンツ分類器の使用に依存している。
しかし、これらの確率的アプローチは、入力と望ましくない出力の非常に広い空間のために、比較的容易に回避できる。
本稿では,これらの攻撃を設計によって防止する検索強化生成システム(RAG)の設計パターンであるHighlight & Summarize(H&S)を提示し,評価する。
その中核となる考え方は、利用者の質問を生成的LLMに明らかにすることなく、標準的なRAGパイプライン(すなわち、関連するソースに基づいて、質問に対する自然言語の回答を提供する)と同じタスクを実行することである。
これは、パイプラインを2つのコンポーネントに分割することで実現される: ユーザの質問を受け取り、検索したドキュメントから関連するパス(ハイライト)を抽出するハイライト器と、ハイライトされたパスを取り、それらを凝集的な回答にまとめる要約器である。
本稿では,H&Sのインスタンス化の可能性について述べるとともに,その生成した応答を正確性,妥当性,応答品質の観点から評価する。
驚いたことに、LLMベースのハイライト装置を使用する場合、ほとんどのH&S応答は標準のRAGパイプラインよりも優れていると判断される。
関連論文リスト
- JPS: Jailbreak Multimodal Large Language Models with Collaborative Visual Perturbation and Textual Steering [73.962469626788]
マルチモーダルな大規模言語モデル(MLLM)に対するジェイルブレイク攻撃は重要な研究課題である。
JPS, UnderlineJailbreak MLLMs with collaborative visual underlinePerturbation and textual underlineSteering。
論文 参考訳(メタデータ) (2025-08-07T07:14:01Z) - Emulating Retrieval Augmented Generation via Prompt Engineering for Enhanced Long Context Comprehension in LLMs [23.960451986662996]
本稿では,レトリーバル拡張生成(RAG)を特殊エンジニアリングとチェーンオブ思考推論によりエミュレートする手法を提案する。
我々は,BABILong から選択したタスクに対するアプローチを評価し,大量の散逸テキストを用いた標準 bAbI QA 問題をインターリーブする。
論文 参考訳(メタデータ) (2025-02-18T02:49:40Z) - DROJ: A Prompt-Driven Attack against Large Language Models [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる例外的な機能を示している。
大規模なアライメント努力にもかかわらず、LLMは相変わらず敵の脱獄攻撃を受けやすいままである。
我々はDROJ(Directed Rrepresentation Optimization Jailbreak)という新しいアプローチを導入する。
論文 参考訳(メタデータ) (2024-11-14T01:48:08Z) - QPaug: Question and Passage Augmentation for Open-Domain Question Answering of LLMs [5.09189220106765]
オープンドメイン問合せタスクのための大規模言語モデル(LLM)を介してQPaug(Q and passage augmentation)と呼ばれるシンプルで効率的な手法を提案する。
実験の結果,QPaugは従来の最先端技術よりも優れており,既存のRAG法よりも大きな性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2024-06-20T12:59:27Z) - Phantom: General Trigger Attacks on Retrieval Augmented Language Generation [30.63258739968483]
Retrieval Augmented Generation (RAG)は、現代の大規模言語モデル(LLM)の機能を拡張する
本稿では,RAGシステムの知識ベースに悪意ある文書を1つだけ注入し,バックドア中毒攻撃を行う新たな攻撃ベクトルを提案する。
我々はGemma、Vicuna、Llamaを含む複数のLLMアーキテクチャに対する攻撃を実演し、GPT-3.5 TurboおよびGPT-4への移行を示す。
論文 参考訳(メタデータ) (2024-05-30T21:19:24Z) - SuRe: Summarizing Retrievals using Answer Candidates for Open-domain QA of LLMs [85.54906813106683]
大規模言語モデル(LLM)を用いたオープンドメイン質問応答(ODQA)の簡易かつ効果的なフレームワークを提案する。
SuRe は LLM が与えられた質問に対するより正確な回答を予測するのに役立つ。
様々なODQAベンチマークの実験結果はSuReの優位性を示し、標準的なプロンプトアプローチよりも4.6%、F1スコアが4.0%向上した。
論文 参考訳(メタデータ) (2024-04-17T01:15:54Z) - SEMQA: Semi-Extractive Multi-Source Question Answering [94.04430035121136]
本稿では,複数ソースを半抽出的に要約することで,複数の質問に答える新しいQAタスクを提案する。
この種の最初のデータセットであるQuoteSumを作成し、自然および生成された質問に対する人間による半抽出的な回答を提示する。
論文 参考訳(メタデータ) (2023-11-08T18:46:32Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - SeqXGPT: Sentence-Level AI-Generated Text Detection [62.3792779440284]
大規模言語モデル(LLM)を用いた文書の合成による文レベル検出の課題について紹介する。
次に,文レベルのAIGT検出機能として,ホワイトボックスLEMのログ確率リストを利用した textbfSequence textbfX (Check) textbfGPT を提案する。
論文 参考訳(メタデータ) (2023-10-13T07:18:53Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z) - Enhancing In-Context Learning with Answer Feedback for Multi-Span
Question Answering [9.158919909909146]
本稿では,LLMが望ましくない出力を通知するなど,ラベル付きデータを活用する新しい手法を提案する。
3つのマルチスパン質問応答データセットとキーフレーズ抽出データセットの実験により、我々の新しいプロンプト戦略はLLMの文脈内学習性能を一貫して改善することを示した。
論文 参考訳(メタデータ) (2023-06-07T15:20:24Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。