論文の概要: On the Risk of Evidence Pollution for Malicious Social Text Detection in the Era of LLMs
- arxiv url: http://arxiv.org/abs/2410.12600v1
- Date: Wed, 16 Oct 2024 14:17:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:42:37.777431
- Title: On the Risk of Evidence Pollution for Malicious Social Text Detection in the Era of LLMs
- Title(参考訳): LLM時代の悪意のある社会テキスト検出における証拠汚染の危険性について
- Authors: Herun Wan, Minnan Luo, Zhixiong Su, Guang Dai, Xiang Zhao,
- Abstract要約: Evidence-enhanced detectorsは、悪意のある社会テキストと関連する証拠を識別する際、顕著な能力を示す。
大型言語モデル(LLM)の台頭は、検知器を混乱させる証拠汚染の潜在的なリスクをもたらす。
本稿では, 証拠の操作方法, 基本汚染を含む誤用シナリオのシミュレーション, 証拠の表現・生成について考察する。
- 参考スコア(独自算出の注目度): 16.577002889693627
- License:
- Abstract: Evidence-enhanced detectors present remarkable abilities in identifying malicious social text with related evidence. However, the rise of large language models (LLMs) brings potential risks of evidence pollution to confuse detectors. This paper explores how to manipulate evidence, simulating potential misuse scenarios including basic pollution, and rephrasing or generating evidence by LLMs. To mitigate its negative impact, we propose three defense strategies from both the data and model sides, including machine-generated text detection, a mixture of experts, and parameter updating. Extensive experiments on four malicious social text detection tasks with ten datasets present that evidence pollution, especially the generate strategy, significantly compromises existing detectors. On the other hand, the defense strategies could mitigate evidence pollution, but they faced limitations for practical employment, such as the need for annotated data and huge inference costs. Further analysis illustrates that polluted evidence is of high quality, would compromise the model calibration, and could ensemble to amplify the negative impact.
- Abstract(参考訳): Evidence-enhanced detectorsは、悪意のある社会テキストと関連する証拠を識別する際、顕著な能力を示す。
しかし、大型言語モデル(LLM)の台頭は、検知器を混乱させる証拠汚染の潜在的なリスクをもたらす。
本稿では, 証拠の操作方法, 基本的な公害を含む誤用シナリオのシミュレーション, LLMによる証拠の表現・生成について検討する。
ネガティブな影響を軽減するため,機械によるテキストの検出,専門家の混在,パラメータの更新など,データとモデル双方からの3つの防衛戦略を提案する。
10のデータセットを持つ4つの悪意ある社会的テキスト検出タスクに関する大規模な実験は、証拠の汚染、特に生成戦略が既存の検知器を著しく損なうことを示した。
一方、防衛戦略は証拠汚染を緩和する可能性があるが、アノテートされたデータの必要性や膨大な推論コストなど、実践的な雇用の制限に直面した。
さらなる分析は、汚染された証拠は高品質であり、モデルの校正を損なう可能性があり、ネガティブな影響を増幅する可能性があることを示している。
関連論文リスト
- Assessing Contamination in Large Language Models: Introducing the LogProber method [17.91379291654773]
機械学習において、汚染とは、データテストがトレーニングセットにリークする状況を指す。
本稿では,与えられた文中のトークン確率を用いて汚染を検出するアルゴリズムであるLogProberを紹介する。
論文 参考訳(メタデータ) (2024-08-26T15:29:34Z) - Multimodal Misinformation Detection using Large Vision-Language Models [7.505532091249881]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示している。
誤情報検出の一部として証拠検索を考えるアプローチはほとんどない。
マルチモーダルエビデンス検索のための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-19T13:57:11Z) - Evading AI-Generated Content Detectors using Homoglyphs [0.0]
ホモグリフベースの攻撃は、最先端のAI生成テキスト検出器を効果的に回避することができる。
以上の結果から,ホモグリフによる攻撃が,最先端の検出器を効果的に回避できることが示唆された。
論文 参考訳(メタデータ) (2024-06-17T06:07:32Z) - Humanizing Machine-Generated Content: Evading AI-Text Detection through Adversarial Attack [24.954755569786396]
そこで本研究では,機械生成コンテンツの小さな摂動を回避して検出を回避すべく,より広いレベルの敵攻撃のためのフレームワークを提案する。
我々は、ホワイトボックスとブラックボックスの2つの攻撃設定を検討し、現在の検出モデルのロバスト性を高める可能性を評価するために、動的シナリオにおける逆学習を採用する。
実験の結果、現在の検出モデルは10秒で妥協でき、機械が生成したテキストを人間の書き起こしコンテンツとして誤分類する結果となった。
論文 参考訳(メタデータ) (2024-04-02T12:49:22Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - Investigating Data Contamination for Pre-training Language Models [46.335755305642564]
我々は,一連のGPT-2モデルを事前学習することで,事前学習段階におけるデータ汚染の影響について検討する。
評価データから,テキスト汚染 (テキスト, 評価サンプルの入力テキスト) と接地トラス汚染 (テキスト, 入力に要求されるプロンプトと所望の出力) の両方の効果を強調した。
論文 参考訳(メタデータ) (2024-01-11T17:24:49Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z) - On the Risk of Misinformation Pollution with Large Language Models [127.1107824751703]
本稿では,現代大規模言語モデル (LLM) の誤用の可能性について検討する。
本研究は, LLMが効果的な誤情報発生器として機能し, DOQAシステムの性能が著しく低下することを明らかにする。
論文 参考訳(メタデータ) (2023-05-23T04:10:26Z) - MGTBench: Benchmarking Machine-Generated Text Detection [54.81446366272403]
本稿では,強力な大規模言語モデル(LLM)に対するMGT検出のための最初のベンチマークフレームワークを提案する。
一般に単語が多ければ多いほど性能が向上し,ほとんどの検出手法はトレーニングサンプルをはるかに少なくして同様の性能が得られることを示す。
本研究は, テキスト属性タスクにおいて, モデルに基づく検出手法が依然として有効であることを示す。
論文 参考訳(メタデータ) (2023-03-26T21:12:36Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - No Need to Know Physics: Resilience of Process-based Model-free Anomaly
Detection for Industrial Control Systems [95.54151664013011]
本稿では,システムの物理的特性に反する逆スプーフ信号を生成するための新しい枠組みを提案する。
トップセキュリティカンファレンスで公表された4つの異常検知器を分析した。
論文 参考訳(メタデータ) (2020-12-07T11:02:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。