論文の概要: Group-Adaptive Adversarial Learning for Robust Fake News Detection Against Malicious Comments
- arxiv url: http://arxiv.org/abs/2510.09712v1
- Date: Fri, 10 Oct 2025 04:39:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.579876
- Title: Group-Adaptive Adversarial Learning for Robust Fake News Detection Against Malicious Comments
- Title(参考訳): 不正コメントに対するロバストフェイクニュース検出のためのグループ適応型逆学習
- Authors: Zhao Tong, Chunlin Gong, Yimeng Gu, Haichao Shi, Qiang Liu, Shu Wu, Xiao-Yu Zhang,
- Abstract要約: 偽ニュース検知器の堅牢性を向上させるために,グループ適応型対人訓練戦略を提案する。
本手法は,広い範囲の反対コメント摂動に対する頑健性を高めつつ,強い検出精度を維持している。
- 参考スコア(独自算出の注目度): 27.972596335576345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The spread of fake news online distorts public judgment and erodes trust in social media platforms. Although recent fake news detection (FND) models perform well in standard settings, they remain vulnerable to adversarial comments-authored by real users or by large language models (LLMs)-that subtly shift model decisions. In view of this, we first present a comprehensive evaluation of comment attacks to existing fake news detectors and then introduce a group-adaptive adversarial training strategy to improve the robustness of FND models. To be specific, our approach comprises three steps: (1) dividing adversarial comments into three psychologically grounded categories: perceptual, cognitive, and societal; (2) generating diverse, category-specific attacks via LLMs to enhance adversarial training; and (3) applying a Dirichlet-based adaptive sampling mechanism (InfoDirichlet Adjusting Mechanism) that dynamically adjusts the learning focus across different comment categories during training. Experiments on benchmark datasets show that our method maintains strong detection accuracy while substantially increasing robustness to a wide range of adversarial comment perturbations.
- Abstract(参考訳): 偽ニュースの拡散は、大衆の判断を歪め、ソーシャルメディアプラットフォームへの信頼を損なう。
最近の偽ニュース検出(FND)モデルは、標準的な設定では良好に機能するが、実際のユーザや大規模言語モデル(LLM)によって作成された敵のコメントに弱いままである。
そこで我々はまず,既存の偽ニュース検知器に対するコメント攻撃の包括的評価を行い,FNDモデルのロバスト性を改善するために,グループ適応型対人訓練戦略を導入する。
本研究のアプローチは,(1) 対立的コメントを心理的に根ざした3つのカテゴリに分割すること,(2) 対立的トレーニングを強化するためにLSMを通して多様なカテゴリー特異的な攻撃を発生させること,(3) ディリクレに基づく適応型サンプリング機構(InfoDirichlet Adjusting Mechanism)を適用して,訓練中に異なるコメントカテゴリ間で学習焦点を動的に調整すること,の3段階からなる。
ベンチマークデータを用いた実験の結果,提案手法は強い検出精度を維持しつつ,幅広い反対コメントの摂動に対して頑健性を高めていることがわかった。
関連論文リスト
- Towards Inclusive Toxic Content Moderation: Addressing Vulnerabilities to Adversarial Attacks in Toxicity Classifiers Tackling LLM-generated Content [12.26588825477595]
本研究では,様々なマイノリティグループにまたがる多様なデータセットを対象に,細調整のBERTとRoBERTa分類器について検討した。
我々は、敵攻撃技術を用いて脆弱な回路を識別し、敵攻撃に対する性能を向上させる。
モデルは、性能に欠かせないか、攻撃に弱いか、脆弱な頭部を抑えることで、対向入力の性能を向上させることが判明した。
論文 参考訳(メタデータ) (2025-09-16T04:51:18Z) - Robustness of Large Language Models Against Adversarial Attacks [5.312946761836463]
GPT LLMファミリーのロバスト性に関する総合的研究を報告する。
我々は2つの異なる評価手法を用いてレジリエンスを評価する。
実験により,これらのモデルのロバスト性は著しく変化し,文字レベルと意味レベルの両方の敵攻撃に対する脆弱性の程度が変化することが示された。
論文 参考訳(メタデータ) (2024-12-22T13:21:15Z) - Dynamic Analysis and Adaptive Discriminator for Fake News Detection [59.41431561403343]
偽ニュース検出のための動的解析・適応識別器(DAAD)手法を提案する。
知識に基づく手法では,モンテカルロ木探索アルゴリズムを導入し,大規模言語モデルの自己表現能力を活用する。
意味に基づく手法では、偽ニュース生成のメカニズムを明らかにするために、典型的偽造パターンを4つ定義する。
論文 参考訳(メタデータ) (2024-08-20T14:13:54Z) - Semantic Stealth: Adversarial Text Attacks on NLP Using Several Methods [0.0]
テキスト敵攻撃は、入力テキストを意図的に操作することで、モデルの予測を誤解させる。
本稿では,BERT,BERT-on-BERT,Fraud Bargain's Attack (FBA)について述べる。
PWWSは最も強力な敵として登場し、複数の評価シナリオで他のメソッドよりも一貫して優れています。
論文 参考訳(メタデータ) (2024-04-08T02:55:01Z) - Group-based Robustness: A General Framework for Customized Robustness in
the Real World [16.376584375681812]
対象とするロバスト度を計測する従来の指標は、あるソースクラスから別のターゲットクラスへの攻撃に耐えるモデルの能力を適切に反映していないことが分かりました。
我々は、既存のメトリクスを補完し、特定の攻撃シナリオにおけるモデル性能を評価するのに適した新しい指標であるグループベースロバストネスを提案する。
同様の成功率で、新たな損失関数を用いた回避サンプルの発見は、対象とするクラスの数に匹敵する程度に削減できることが示される。
論文 参考訳(メタデータ) (2023-06-29T01:07:12Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Evaluating the Susceptibility of Pre-Trained Language Models via
Handcrafted Adversarial Examples [0.0]
我々は、GPT-3の公開リリースにおける重大なセキュリティ脆弱性を強調し、この脆弱性を他の最先端のPLMで調査する。
我々は,トークン距離最小化摂動を,教師なしと教師なしの両方の品質対策を回避し,効果的な敵対的アプローチとして評価する。
論文 参考訳(メタデータ) (2022-09-05T20:29:17Z) - Characterizing the adversarial vulnerability of speech self-supervised
learning [95.03389072594243]
我々は,ゼロ知識とリミテッド知識の両方の敵からの攻撃の下で,そのようなパラダイムの敵対的脆弱性を調査するための最初の試みを行う。
実験結果から, SUPERB が提案するパラダイムは, 限られた知識を持つ敵に対して脆弱であることが示唆された。
論文 参考訳(メタデータ) (2021-11-08T08:44:04Z) - Adversarial Augmentation Policy Search for Domain and Cross-Lingual
Generalization in Reading Comprehension [96.62963688510035]
理解モデルを読むことは、しばしばトレーニングデータセットのニュアンスに過度に適合し、敵対的な評価に失敗する。
本稿では,複数の効果的な敵と自動データ拡張ポリシー探索手法を提案し,対角的評価に対して,読解理解モデルをより堅牢にすることを目的とする。
論文 参考訳(メタデータ) (2020-04-13T17:20:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。