Fugu-MT 論文翻訳(概要): On the Risk of Evidence Pollution for Malicious Social Text Detection in the Era of LLMs

論文の概要: On the Risk of Evidence Pollution for Malicious Social Text Detection in the Era of LLMs

arxiv url: http://arxiv.org/abs/2410.12600v1
Date: Wed, 16 Oct 2024 14:17:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:36.35414
Title: On the Risk of Evidence Pollution for Malicious Social Text Detection in the Era of LLMs
Title（参考訳）: LLM時代の悪意のある社会テキスト検出における証拠汚染の危険性について
Authors: Herun Wan, Minnan Luo, Zhixiong Su, Guang Dai, Xiang Zhao,
Abstract要約: Evidence-enhanced detectorsは、悪意のある社会テキストと関連する証拠を識別する際、顕著な能力を示す。大型言語モデル(LLM)の台頭は、検知器を混乱させる証拠汚染の潜在的なリスクをもたらす。本稿では, 証拠の操作方法, 基本汚染を含む誤用シナリオのシミュレーション, 証拠の表現・生成について考察する。
参考スコア（独自算出の注目度）: 16.577002889693627
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Evidence-enhanced detectors present remarkable abilities in identifying malicious social text with related evidence. However, the rise of large language models (LLMs) brings potential risks of evidence pollution to confuse detectors. This paper explores how to manipulate evidence, simulating potential misuse scenarios including basic pollution, and rephrasing or generating evidence by LLMs. To mitigate its negative impact, we propose three defense strategies from both the data and model sides, including machine-generated text detection, a mixture of experts, and parameter updating. Extensive experiments on four malicious social text detection tasks with ten datasets present that evidence pollution, especially the generate strategy, significantly compromises existing detectors. On the other hand, the defense strategies could mitigate evidence pollution, but they faced limitations for practical employment, such as the need for annotated data and huge inference costs. Further analysis illustrates that polluted evidence is of high quality, would compromise the model calibration, and could ensemble to amplify the negative impact.
Abstract（参考訳）: Evidence-enhanced detectorsは、悪意のある社会テキストと関連する証拠を識別する際、顕著な能力を示す。しかし、大型言語モデル(LLM)の台頭は、検知器を混乱させる証拠汚染の潜在的なリスクをもたらす。本稿では, 証拠の操作方法, 基本的な公害を含む誤用シナリオのシミュレーション, LLMによる証拠の表現・生成について検討する。ネガティブな影響を軽減するため,機械によるテキストの検出,専門家の混在,パラメータの更新など,データとモデル双方からの3つの防衛戦略を提案する。 10のデータセットを持つ4つの悪意ある社会的テキスト検出タスクに関する大規模な実験は、証拠の汚染、特に生成戦略が既存の検知器を著しく損なうことを示した。一方、防衛戦略は証拠汚染を緩和する可能性があるが、アノテートされたデータの必要性や膨大な推論コストなど、実践的な雇用の制限に直面した。さらなる分析は、汚染された証拠は高品質であり、モデルの校正を損なう可能性があり、ネガティブな影響を増幅する可能性があることを示している。

関連論文リスト

Detecting and Preventing Data Poisoning Attacks on AI Models [0.0]
本研究は,データ中毒の発生を検知・予防する新しい手法を開発し,評価することを目的とする。本研究は, 異常検出, 頑健な最適化戦略, アンサンブル学習など, モデルトレーニング中の有毒データの影響を識別・緩和する様々な手法について検討した。統計的異常検出および逆行訓練を含む防御機構が提案され, 毒性の軽減, モデルロバスト性の向上, 平均15～20%の精度回復が達成された。
論文参考訳（メタデータ） (2025-03-12T11:55:01Z)
Model Tampering Attacks Enable More Rigorous Evaluations of LLM Capabilities [49.09703018511403]
大規模言語モデル(LLM)のリスクと能力の評価は、AIのリスク管理とガバナンスフレームワークにますます取り入れられている。現在、ほとんどのリスク評価は、システムから有害な振る舞いを誘発する入力を設計することで実施されている。本稿では,遅延活性化や重みへの修正が可能なモデル改ざん攻撃を用いたLCMの評価を提案する。
論文参考訳（メタデータ） (2025-02-03T18:59:16Z)
Mitigating GenAI-powered Evidence Pollution for Out-of-Context Multimodal Misinformation Detection [16.8035295204995]
アウト・オブ・コンテクストのマルチモーダル誤報検出は、GenAIに汚染された証拠を推論して正確な予測を導出する問題に直面している。既存の作業は、請求レベルでのGenAIによる汚染をシミュレートし、スタイリスティックな書き換えによって言語的手がかりを隠蔽し、そのような情報検索アプリケーションに対する証拠レベルの汚染を無視する。汚染された証拠から生じる課題に対処するため, クロスモーダル・エビデンスとクロスモーダル・エビデンス・推論の2つの戦略を提案する。
論文参考訳（メタデータ） (2025-01-24T18:59:31Z)
Humanizing the Machine: Proxy Attacks to Mislead LLM Detectors [31.18762591875725]
我々は、大規模言語モデル(LLM)を懸命に妥協するプロキシ・アタック戦略を導入する。提案手法は, 復号相における強化学習 (RL) の微調整による小型言語モデル (SLM) を活用することで, 情報源モデルを攻撃する。以上の結果から,プロキシアタック戦略は主要な検出器を効果的に騙し,複数のデータセットで平均70.4%のAUROC低下を招いた。
論文参考訳（メタデータ） (2024-10-25T00:35:00Z)
Assessing Contamination in Large Language Models: Introducing the LogProber method [17.91379291654773]
機械学習において、汚染とは、データテストがトレーニングセットにリークする状況を指す。本稿では,与えられた文中のトークン確率を用いて汚染を検出するアルゴリズムであるLogProberを紹介する。
論文参考訳（メタデータ） (2024-08-26T15:29:34Z)
Multimodal Misinformation Detection using Large Vision-Language Models [7.505532091249881]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示している。誤情報検出の一部として証拠検索を考えるアプローチはほとんどない。マルチモーダルエビデンス検索のための新しい手法を提案する。
論文参考訳（メタデータ） (2024-07-19T13:57:11Z)
Evading AI-Generated Content Detectors using Homoglyphs [0.0]
ホモグリフベースの攻撃は、最先端のAI生成テキスト検出器を効果的に回避することができる。以上の結果から,ホモグリフによる攻撃が,最先端の検出器を効果的に回避できることが示唆された。
論文参考訳（メタデータ） (2024-06-17T06:07:32Z)
Humanizing Machine-Generated Content: Evading AI-Text Detection through Adversarial Attack [24.954755569786396]
そこで本研究では,機械生成コンテンツの小さな摂動を回避して検出を回避すべく,より広いレベルの敵攻撃のためのフレームワークを提案する。我々は、ホワイトボックスとブラックボックスの2つの攻撃設定を検討し、現在の検出モデルのロバスト性を高める可能性を評価するために、動的シナリオにおける逆学習を採用する。実験の結果、現在の検出モデルは10秒で妥協でき、機械が生成したテキストを人間の書き起こしコンテンツとして誤分類する結果となった。
論文参考訳（メタデータ） (2024-04-02T12:49:22Z)
A Comprehensive Survey of Contamination Detection Methods in Large Language Models [68.10605098856087]
近年のLarge Language Models(LLM)の台頭に伴い、多くの新しい機会が生まれつつありますが、新たな課題もあります。 LLMの性能は、データへの以前の露出のために、少なくとも部分的には高性能である可能性があるため、もはや信頼性が低い可能性がある。この制限は、NLPの分野での実際の能力向上を阻害するが、汚染を効率的に検出する方法が不足している。
論文参考訳（メタデータ） (2024-03-31T14:32:02Z)
KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。 5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文参考訳（メタデータ） (2024-02-23T01:30:39Z)
Investigating Data Contamination for Pre-training Language Models [46.335755305642564]
我々は,一連のGPT-2モデルを事前学習することで,事前学習段階におけるデータ汚染の影響について検討する。評価データから,テキスト汚染 (テキスト, 評価サンプルの入力テキスト) と接地トラス汚染 (テキスト, 入力に要求されるプロンプトと所望の出力) の両方の効果を強調した。
論文参考訳（メタデータ） (2024-01-11T17:24:49Z)
Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文参考訳（メタデータ） (2023-06-06T14:45:24Z)
On the Risk of Misinformation Pollution with Large Language Models [127.1107824751703]
本稿では,現代大規模言語モデル (LLM) の誤用の可能性について検討する。本研究は, LLMが効果的な誤情報発生器として機能し, DOQAシステムの性能が著しく低下することを明らかにする。
論文参考訳（メタデータ） (2023-05-23T04:10:26Z)
MGTBench: Benchmarking Machine-Generated Text Detection [54.81446366272403]
本稿では,強力な大規模言語モデル(LLM)に対するMGT検出のための最初のベンチマークフレームワークを提案する。一般に単語が多ければ多いほど性能が向上し,ほとんどの検出手法はトレーニングサンプルをはるかに少なくして同様の性能が得られることを示す。本研究は, テキスト属性タスクにおいて, モデルに基づく検出手法が依然として有効であることを示す。
論文参考訳（メタデータ） (2023-03-26T21:12:36Z)
Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文参考訳（メタデータ） (2023-03-17T17:53:19Z)
Fact-Saboteurs: A Taxonomy of Evidence Manipulation Attacks against Fact-Verification Systems [80.3811072650087]
証拠のクレームサレントスニペットを微調整し,多様かつクレームアラインな証拠を生成することが可能であることを示す。この攻撃は、主張のポストホックな修正に対しても堅牢である。これらの攻撃は、インスペクタブルとヒューマン・イン・ザ・ループの使用シナリオに有害な影響を及ぼす可能性がある。
論文参考訳（メタデータ） (2022-09-07T13:39:24Z)
No Need to Know Physics: Resilience of Process-based Model-free Anomaly Detection for Industrial Control Systems [95.54151664013011]
本稿では,システムの物理的特性に反する逆スプーフ信号を生成するための新しい枠組みを提案する。トップセキュリティカンファレンスで公表された4つの異常検知器を分析した。
論文参考訳（メタデータ） (2020-12-07T11:02:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。