論文の概要: On the Risk of Evidence Pollution for Malicious Social Text Detection in the Era of LLMs
- arxiv url: http://arxiv.org/abs/2410.12600v1
- Date: Wed, 16 Oct 2024 14:17:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:42:37.777431
- Title: On the Risk of Evidence Pollution for Malicious Social Text Detection in the Era of LLMs
- Title(参考訳): LLM時代の悪意のある社会テキスト検出における証拠汚染の危険性について
- Authors: Herun Wan, Minnan Luo, Zhixiong Su, Guang Dai, Xiang Zhao,
- Abstract要約: Evidence-enhanced detectorsは、悪意のある社会テキストと関連する証拠を識別する際、顕著な能力を示す。
大型言語モデル(LLM)の台頭は、検知器を混乱させる証拠汚染の潜在的なリスクをもたらす。
本稿では, 証拠の操作方法, 基本汚染を含む誤用シナリオのシミュレーション, 証拠の表現・生成について考察する。
- 参考スコア(独自算出の注目度): 16.577002889693627
- License:
- Abstract: Evidence-enhanced detectors present remarkable abilities in identifying malicious social text with related evidence. However, the rise of large language models (LLMs) brings potential risks of evidence pollution to confuse detectors. This paper explores how to manipulate evidence, simulating potential misuse scenarios including basic pollution, and rephrasing or generating evidence by LLMs. To mitigate its negative impact, we propose three defense strategies from both the data and model sides, including machine-generated text detection, a mixture of experts, and parameter updating. Extensive experiments on four malicious social text detection tasks with ten datasets present that evidence pollution, especially the generate strategy, significantly compromises existing detectors. On the other hand, the defense strategies could mitigate evidence pollution, but they faced limitations for practical employment, such as the need for annotated data and huge inference costs. Further analysis illustrates that polluted evidence is of high quality, would compromise the model calibration, and could ensemble to amplify the negative impact.
- Abstract(参考訳): Evidence-enhanced detectorsは、悪意のある社会テキストと関連する証拠を識別する際、顕著な能力を示す。
しかし、大型言語モデル(LLM)の台頭は、検知器を混乱させる証拠汚染の潜在的なリスクをもたらす。
本稿では, 証拠の操作方法, 基本的な公害を含む誤用シナリオのシミュレーション, LLMによる証拠の表現・生成について検討する。
ネガティブな影響を軽減するため,機械によるテキストの検出,専門家の混在,パラメータの更新など,データとモデル双方からの3つの防衛戦略を提案する。
10のデータセットを持つ4つの悪意ある社会的テキスト検出タスクに関する大規模な実験は、証拠の汚染、特に生成戦略が既存の検知器を著しく損なうことを示した。
一方、防衛戦略は証拠汚染を緩和する可能性があるが、アノテートされたデータの必要性や膨大な推論コストなど、実践的な雇用の制限に直面した。
さらなる分析は、汚染された証拠は高品質であり、モデルの校正を損なう可能性があり、ネガティブな影響を増幅する可能性があることを示している。
関連論文リスト
- Mitigating GenAI-powered Evidence Pollution for Out-of-Context Multimodal Misinformation Detection [16.8035295204995]
アウト・オブ・コンテクストのマルチモーダル誤報検出は、GenAIに汚染された証拠を推論して正確な予測を導出する問題に直面している。
既存の作業は、請求レベルでのGenAIによる汚染をシミュレートし、スタイリスティックな書き換えによって言語的手がかりを隠蔽し、そのような情報検索アプリケーションに対する証拠レベルの汚染を無視する。
汚染された証拠から生じる課題に対処するため, クロスモーダル・エビデンスとクロスモーダル・エビデンス・推論の2つの戦略を提案する。
論文 参考訳(メタデータ) (2025-01-24T18:59:31Z) - Assessing Contamination in Large Language Models: Introducing the LogProber method [17.91379291654773]
機械学習において、汚染とは、データテストがトレーニングセットにリークする状況を指す。
本稿では,与えられた文中のトークン確率を用いて汚染を検出するアルゴリズムであるLogProberを紹介する。
論文 参考訳(メタデータ) (2024-08-26T15:29:34Z) - Multimodal Misinformation Detection using Large Vision-Language Models [7.505532091249881]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示している。
誤情報検出の一部として証拠検索を考えるアプローチはほとんどない。
マルチモーダルエビデンス検索のための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-19T13:57:11Z) - SilverSpeak: Evading AI-Generated Text Detectors using Homoglyphs [0.0]
ホモグリフベースの攻撃は、最先端のAI生成テキスト検出器を効果的に回避することができる。
以上の結果から,ホモグリフによる攻撃が,最先端の検出器を効果的に回避できることが示唆された。
論文 参考訳(メタデータ) (2024-06-17T06:07:32Z) - Humanizing Machine-Generated Content: Evading AI-Text Detection through Adversarial Attack [24.954755569786396]
そこで本研究では,機械生成コンテンツの小さな摂動を回避して検出を回避すべく,より広いレベルの敵攻撃のためのフレームワークを提案する。
我々は、ホワイトボックスとブラックボックスの2つの攻撃設定を検討し、現在の検出モデルのロバスト性を高める可能性を評価するために、動的シナリオにおける逆学習を採用する。
実験の結果、現在の検出モデルは10秒で妥協でき、機械が生成したテキストを人間の書き起こしコンテンツとして誤分類する結果となった。
論文 参考訳(メタデータ) (2024-04-02T12:49:22Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z) - On the Risk of Misinformation Pollution with Large Language Models [127.1107824751703]
本稿では,現代大規模言語モデル (LLM) の誤用の可能性について検討する。
本研究は, LLMが効果的な誤情報発生器として機能し, DOQAシステムの性能が著しく低下することを明らかにする。
論文 参考訳(メタデータ) (2023-05-23T04:10:26Z) - MGTBench: Benchmarking Machine-Generated Text Detection [54.81446366272403]
本稿では,強力な大規模言語モデル(LLM)に対するMGT検出のための最初のベンチマークフレームワークを提案する。
一般に単語が多ければ多いほど性能が向上し,ほとんどの検出手法はトレーニングサンプルをはるかに少なくして同様の性能が得られることを示す。
本研究は, テキスト属性タスクにおいて, モデルに基づく検出手法が依然として有効であることを示す。
論文 参考訳(メタデータ) (2023-03-26T21:12:36Z) - Fact-Saboteurs: A Taxonomy of Evidence Manipulation Attacks against
Fact-Verification Systems [80.3811072650087]
証拠のクレームサレントスニペットを微調整し,多様かつクレームアラインな証拠を生成することが可能であることを示す。
この攻撃は、主張のポストホックな修正に対しても堅牢である。
これらの攻撃は、インスペクタブルとヒューマン・イン・ザ・ループの使用シナリオに有害な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-09-07T13:39:24Z) - No Need to Know Physics: Resilience of Process-based Model-free Anomaly
Detection for Industrial Control Systems [95.54151664013011]
本稿では,システムの物理的特性に反する逆スプーフ信号を生成するための新しい枠組みを提案する。
トップセキュリティカンファレンスで公表された4つの異常検知器を分析した。
論文 参考訳(メタデータ) (2020-12-07T11:02:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。