論文の概要: On the Risk of Evidence Pollution for Malicious Social Text Detection in the Era of LLMs
- arxiv url: http://arxiv.org/abs/2410.12600v2
- Date: Thu, 29 May 2025 03:17:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 15:42:32.598849
- Title: On the Risk of Evidence Pollution for Malicious Social Text Detection in the Era of LLMs
- Title(参考訳): LLM時代の悪意のある社会テキスト検出における証拠汚染の危険性について
- Authors: Herun Wan, Minnan Luo, Zhixiong Su, Guang Dai, Xiang Zhao,
- Abstract要約: Evidence-enhanced detectorsは、悪意のある社会的テキストを識別する際、顕著な能力を示す。
大型言語モデル(LLM)の台頭は、検知器を混乱させる証拠汚染の潜在的なリスクをもたらす。
本稿では, 基礎汚染を含む潜在的操作シナリオについて考察し, 証拠の表現や生成について述べる。
- 参考スコア(独自算出の注目度): 16.577002889693627
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evidence-enhanced detectors present remarkable abilities in identifying malicious social text. However, the rise of large language models (LLMs) brings potential risks of evidence pollution to confuse detectors. This paper explores potential manipulation scenarios including basic pollution, and rephrasing or generating evidence by LLMs. To mitigate the negative impact, we propose three defense strategies from the data and model sides, including machine-generated text detection, a mixture of experts, and parameter updating. Extensive experiments on four malicious social text detection tasks with ten datasets illustrate that evidence pollution significantly compromises detectors, where the generating strategy causes up to a 14.4% performance drop. Meanwhile, the defense strategies could mitigate evidence pollution, but they faced limitations for practical employment. Further analysis illustrates that polluted evidence (i) is of high quality, evaluated by metrics and humans; (ii) would compromise the model calibration, increasing expected calibration error up to 21.6%; and (iii) could be integrated to amplify the negative impact, especially for encoder-based LMs, where the accuracy drops by 21.8%.
- Abstract(参考訳): Evidence-enhanced detectorsは、悪意のある社会的テキストを識別する際、顕著な能力を示す。
しかし、大型言語モデル(LLM)の台頭は、検知器を混乱させる証拠汚染の潜在的なリスクをもたらす。
本稿では, 基礎汚染やLCMによる証拠の表現・生成など, 潜在的操作シナリオについて考察する。
ネガティブな影響を軽減するため,機械によるテキストの検出,専門家の混在,パラメータの更新など,データとモデル側からの3つの防衛戦略を提案する。
10のデータセットを持つ4つの悪意ある社会的テキスト検出タスクに関する大規模な実験は、証拠の汚染が検出器を著しく損なうことを示しており、そこでは生成戦略が14.4%のパフォーマンス低下を引き起こす。
一方、防衛戦略は証拠汚染を緩和する可能性があるが、実践的な雇用の制限に直面した。
さらなる分析は、その証拠を汚染したことを示している
i) 高品質で、メトリクスや人間によって評価される。
(二)モデル校正を妥協し、期待校正誤差を21.6%まで引き上げる。
三) 負の影響を増幅するために、特にエンコーダベースのLMでは、精度が21.8%低下する。
関連論文リスト
- Mitigating GenAI-powered Evidence Pollution for Out-of-Context Multimodal Misinformation Detection [16.8035295204995]
アウト・オブ・コンテクストのマルチモーダル誤報検出は、GenAIに汚染された証拠を推論して正確な予測を導出する問題に直面している。
既存の作業は、請求レベルでのGenAIによる汚染をシミュレートし、スタイリスティックな書き換えによって言語的手がかりを隠蔽し、そのような情報検索アプリケーションに対する証拠レベルの汚染を無視する。
汚染された証拠から生じる課題に対処するため, クロスモーダル・エビデンスとクロスモーダル・エビデンス・推論の2つの戦略を提案する。
論文 参考訳(メタデータ) (2025-01-24T18:59:31Z) - Assessing Contamination in Large Language Models: Introducing the LogProber method [17.91379291654773]
機械学習において、汚染とは、データテストがトレーニングセットにリークする状況を指す。
本稿では,与えられた文中のトークン確率を用いて汚染を検出するアルゴリズムであるLogProberを紹介する。
論文 参考訳(メタデータ) (2024-08-26T15:29:34Z) - Multimodal Misinformation Detection using Large Vision-Language Models [7.505532091249881]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示している。
誤情報検出の一部として証拠検索を考えるアプローチはほとんどない。
マルチモーダルエビデンス検索のための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-19T13:57:11Z) - Evading AI-Generated Content Detectors using Homoglyphs [0.0]
ホモグリフベースの攻撃は、最先端のAI生成テキスト検出器を効果的に回避することができる。
以上の結果から,ホモグリフによる攻撃が,最先端の検出器を効果的に回避できることが示唆された。
論文 参考訳(メタデータ) (2024-06-17T06:07:32Z) - Humanizing Machine-Generated Content: Evading AI-Text Detection through Adversarial Attack [24.954755569786396]
そこで本研究では,機械生成コンテンツの小さな摂動を回避して検出を回避すべく,より広いレベルの敵攻撃のためのフレームワークを提案する。
我々は、ホワイトボックスとブラックボックスの2つの攻撃設定を検討し、現在の検出モデルのロバスト性を高める可能性を評価するために、動的シナリオにおける逆学習を採用する。
実験の結果、現在の検出モデルは10秒で妥協でき、機械が生成したテキストを人間の書き起こしコンテンツとして誤分類する結果となった。
論文 参考訳(メタデータ) (2024-04-02T12:49:22Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - Investigating Data Contamination for Pre-training Language Models [46.335755305642564]
我々は,一連のGPT-2モデルを事前学習することで,事前学習段階におけるデータ汚染の影響について検討する。
評価データから,テキスト汚染 (テキスト, 評価サンプルの入力テキスト) と接地トラス汚染 (テキスト, 入力に要求されるプロンプトと所望の出力) の両方の効果を強調した。
論文 参考訳(メタデータ) (2024-01-11T17:24:49Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z) - On the Risk of Misinformation Pollution with Large Language Models [127.1107824751703]
本稿では,現代大規模言語モデル (LLM) の誤用の可能性について検討する。
本研究は, LLMが効果的な誤情報発生器として機能し, DOQAシステムの性能が著しく低下することを明らかにする。
論文 参考訳(メタデータ) (2023-05-23T04:10:26Z) - MGTBench: Benchmarking Machine-Generated Text Detection [54.81446366272403]
本稿では,強力な大規模言語モデル(LLM)に対するMGT検出のための最初のベンチマークフレームワークを提案する。
一般に単語が多ければ多いほど性能が向上し,ほとんどの検出手法はトレーニングサンプルをはるかに少なくして同様の性能が得られることを示す。
本研究は, テキスト属性タスクにおいて, モデルに基づく検出手法が依然として有効であることを示す。
論文 参考訳(メタデータ) (2023-03-26T21:12:36Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - Fact-Saboteurs: A Taxonomy of Evidence Manipulation Attacks against
Fact-Verification Systems [80.3811072650087]
証拠のクレームサレントスニペットを微調整し,多様かつクレームアラインな証拠を生成することが可能であることを示す。
この攻撃は、主張のポストホックな修正に対しても堅牢である。
これらの攻撃は、インスペクタブルとヒューマン・イン・ザ・ループの使用シナリオに有害な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-09-07T13:39:24Z) - No Need to Know Physics: Resilience of Process-based Model-free Anomaly
Detection for Industrial Control Systems [95.54151664013011]
本稿では,システムの物理的特性に反する逆スプーフ信号を生成するための新しい枠組みを提案する。
トップセキュリティカンファレンスで公表された4つの異常検知器を分析した。
論文 参考訳(メタデータ) (2020-12-07T11:02:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。