Fugu-MT 論文翻訳(概要): Topic-FlipRAG: Topic-Orientated Adversarial Opinion Manipulation Attacks to Retrieval-Augmented Generation Models

論文の概要: Topic-FlipRAG: Topic-Orientated Adversarial Opinion Manipulation Attacks to Retrieval-Augmented Generation Models

arxiv url: http://arxiv.org/abs/2502.01386v2
Date: Tue, 25 Feb 2025 14:57:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-26 17:42:44.845777
Title: Topic-FlipRAG: Topic-Orientated Adversarial Opinion Manipulation Attacks to Retrieval-Augmented Generation Models
Title（参考訳）: Topic-FlipRAG:Tpic-Orientated Adversarial Opinional Manipulation Attacks to Retrieval-Augmented Generation Models
Authors: Yuyang Gong, Zhuo Chen, Miaokun Chen, Fengchang Yu, Wei Lu, Xiaofeng Wang, Xiaozhong Liu, Jiawei Liu,
Abstract要約: 本稿では,関連するクエリに対する意見に影響を及ぼすために,敵の摂動を利用する2段階の操作攻撃パイプラインを提案する。実験により、提案した攻撃は特定のトピックに対するモデルの出力の意見を効果的にシフトさせることが示されている。
参考スコア（独自算出の注目度）: 22.296368955665475
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Retrieval-Augmented Generation (RAG) systems based on Large Language Models (LLMs) have become essential for tasks such as question answering and content generation. However, their increasing impact on public opinion and information dissemination has made them a critical focus for security research due to inherent vulnerabilities. Previous studies have predominantly addressed attacks targeting factual or single-query manipulations. In this paper, we address a more practical scenario: topic-oriented adversarial opinion manipulation attacks on RAG models, where LLMs are required to reason and synthesize multiple perspectives, rendering them particularly susceptible to systematic knowledge poisoning. Specifically, we propose Topic-FlipRAG, a two-stage manipulation attack pipeline that strategically crafts adversarial perturbations to influence opinions across related queries. This approach combines traditional adversarial ranking attack techniques and leverages the extensive internal relevant knowledge and reasoning capabilities of LLMs to execute semantic-level perturbations. Experiments show that the proposed attacks effectively shift the opinion of the model's outputs on specific topics, significantly impacting user information perception. Current mitigation methods cannot effectively defend against such attacks, highlighting the necessity for enhanced safeguards for RAG systems, and offering crucial insights for LLM security research.
Abstract（参考訳）: 大規模言語モデル(LLM)に基づく検索・拡張生成システム(RAG)は,質問応答やコンテンツ生成といったタスクに欠かせないものとなっている。しかし、世論や情報拡散に対する影響力の増大は、固有の脆弱性のためにセキュリティ研究にとって重要な焦点となっている。これまでの研究は、事実または単一クエリ操作を標的とした攻撃に主に対処してきた。本稿では,より実践的なシナリオとして,RAGモデルに対するトピック指向の反対意見操作攻撃(LSM)について述べる。具体的には,2段階の操作攻撃パイプラインであるTopic-FlipRAGを提案する。このアプローチは、従来の敵のランク付け攻撃技術を組み合わせて、LLMの広範囲な内部知識と推論能力を活用して、意味レベルの摂動を実行する。実験により,提案した攻撃は,特定のトピックに対するモデル出力の意見を効果的にシフトし,ユーザ情報知覚に大きな影響を及ぼすことが示された。現在の緩和方法は、これらの攻撃に対して効果的に防御することができず、RAGシステムの強化されたセーフガードの必要性を強調し、LLMセキュリティ研究にとって重要な洞察を提供する。

関連論文リスト

A Survey on Model Extraction Attacks and Defenses for Large Language Models [55.60375624503877]
モデル抽出攻撃は、デプロイされた言語モデルに重大なセキュリティ脅威をもたらす。この調査は、抽出攻撃と防御攻撃の包括的分類、機能抽出への攻撃の分類、データ抽出の訓練、およびプロンプトターゲット攻撃を提供する。モデル保護,データプライバシ保護,迅速なターゲット戦略に編成された防御機構について検討し,その効果を異なる展開シナリオで評価する。
論文参考訳（メタデータ） (2025-06-26T22:02:01Z)
The Silent Saboteur: Imperceptible Adversarial Attacks against Black-Box Retrieval-Augmented Generation Systems [101.68501850486179]
本稿では,RAGシステムに対する敵攻撃について検討し,その脆弱性を同定する。このタスクは、ターゲット文書を検索する非知覚的な摂動を見つけることを目的としており、もともとはトップ$k$の候補セットから除外されていた。本稿では、攻撃者とターゲットRAG間の相互作用を追跡する強化学習ベースのフレームワークであるReGENTを提案する。
論文参考訳（メタデータ） (2025-05-24T08:19:25Z)
Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文参考訳（メタデータ） (2025-05-03T05:28:11Z)
Illusions of Relevance: Using Content Injection Attacks to Deceive Retrievers, Rerankers, and LLM Judges [52.96987928118327]
検索,リランカー,大型言語モデル(LLM)の埋め込みモデルは,コンテンツインジェクション攻撃に対して脆弱であることがわかった。主な脅威は,(1) 意味不明な内容や有害な内容の挿入,(2) 関連性を高めるために,問合せ全体あるいはキークエリ用語の挿入,の2つである。本研究は, 注射内容の配置や関連物質と非関連物質とのバランスなど, 攻撃の成功に影響を与える要因を系統的に検討した。
論文参考訳（メタデータ） (2025-01-30T18:02:15Z)
FlippedRAG: Black-Box Opinion Manipulation Adversarial Attacks to Retrieval-Augmented Generation Models [22.35026334463735]
我々は、ブラックボックスRAGシステムに対するトランスファーベースの敵攻撃であるFlippedRAGを提案する。 FlippedRAGは、RAG生成反応の意見において平均50%の方向シフトを達成する。これらの結果は、RAGシステムのセキュリティと信頼性を確保するために革新的な防衛ソリューションを開発する緊急の必要性を浮き彫りにしている。
論文参考訳（メタデータ） (2025-01-06T12:24:57Z)
Towards More Robust Retrieval-Augmented Generation: Evaluating RAG Under Adversarial Poisoning Attacks [45.07581174558107]
Retrieval-Augmented Generation (RAG) システムは幻覚を緩和するための有望な解決策として登場した。 RAGシステムは、検索データベースに注入された悪意のあるパスが、モデルを誤誘導し、事実的に誤ったアウトプットを発生させるような、敵の毒殺攻撃に弱い。本稿では,RAGシステムの検索と生成の両要素について検討し,攻撃に対するロバスト性を高める方法について考察する。
論文参考訳（メタデータ） (2024-12-21T17:31:52Z)
Adversarial Attacks of Vision Tasks in the Past 10 Years: A Survey [21.4046846701173]
敵対的攻撃は、機械学習推論中に重大なセキュリティ脅威を引き起こす。既存のレビューは、しばしば攻撃分類に焦点を合わせ、包括的で詳細な分析を欠いている。本稿は、従来のLVLM攻撃とLVLM攻撃の包括的概要を提供することによって、これらのギャップに対処する。
論文参考訳（メタデータ） (2024-10-31T07:22:51Z)
Imposter.AI: Adversarial Attacks with Hidden Intentions towards Aligned Large Language Models [13.225041704917905]
本研究では,大規模言語モデルから有害情報を抽出するために,人間の会話戦略を活かした攻撃機構を明らかにする。明示的な悪意のある応答をターゲットとする従来の手法とは異なり、我々のアプローチは応答で提供される情報の性質を深く掘り下げている。
論文参考訳（メタデータ） (2024-07-22T06:04:29Z)
Black-Box Opinion Manipulation Attacks to Retrieval-Augmented Generation of Large Language Models [21.01313168005792]
我々は、意見操作のためのブラックボックス攻撃に直面した場合、検索強化生成(RAG)モデルの脆弱性を明らかにする。このような攻撃がユーザの認知と意思決定に与える影響について検討する。
論文参考訳（メタデータ） (2024-07-18T17:55:55Z)
A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends [78.3201480023907]
LVLM(Large Vision-Language Models)は、多モーダルな理解と推論タスクにまたがる顕著な能力を示す。 LVLMの脆弱性は比較的過小評価されており、日々の使用において潜在的なセキュリティリスクを生じさせる。本稿では,既存のLVLM攻撃の様々な形態について概説する。
論文参考訳（メタデータ） (2024-07-10T06:57:58Z)
Breaking Down the Defenses: A Comparative Survey of Attacks on Large Language Models [18.624280305864804]
大規模言語モデル(LLM)は自然言語処理(NLP)分野の基盤となっている。本稿では,LSMを標的とした様々な攻撃形態の包括的調査を行う。モデルアウトプットを操作するための敵攻撃、モデルトレーニングに影響を与えるデータ中毒、データエクスプロイトのトレーニングに関連するプライバシー上の懸念などについて調べる。
論文参考訳（メタデータ） (2024-03-03T04:46:21Z)
LoRec: Large Language Model for Robust Sequential Recommendation against Poisoning Attacks [60.719158008403376]
本研究は,リコメンデータシステムにおける未知の不正行為の検出におけるLarge Language Models(LLM)の機能に着目した。逐次リコメンデータシステムのロバスト性を高めるため,LLM強化を利用した高度なフレームワークであるLoRecを提案する。総合的な実験により、LoRecは一般的なフレームワークとして、シーケンシャルなレコメンデータシステムの堅牢性を大幅に強化することを示した。
論文参考訳（メタデータ） (2024-01-31T10:35:53Z)
Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文参考訳（メタデータ） (2023-12-21T01:08:39Z)
Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文参考訳（メタデータ） (2023-06-22T22:13:03Z)
On the Risk of Misinformation Pollution with Large Language Models [127.1107824751703]
本稿では,現代大規模言語モデル (LLM) の誤用の可能性について検討する。本研究は, LLMが効果的な誤情報発生器として機能し, DOQAシステムの性能が著しく低下することを明らかにする。
論文参考訳（メタデータ） (2023-05-23T04:10:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。