論文の概要: Examining the Limitations of Computational Rumor Detection Models Trained on Static Datasets
- arxiv url: http://arxiv.org/abs/2309.11576v2
- Date: Sun, 24 Mar 2024 00:06:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 03:07:37.035808
- Title: Examining the Limitations of Computational Rumor Detection Models Trained on Static Datasets
- Title(参考訳): 静的データセットを用いた数値騒音検出モデルの限界の検討
- Authors: Yida Mu, Xingyi Song, Kalina Bontcheva, Nikolaos Aletras,
- Abstract要約: 本稿では,コンテンツとコンテキストベースモデルのパフォーマンスギャップを詳細に評価する。
我々の経験的結果は、コンテキストベースのモデルは、まだ噂のソース投稿から得られた情報に過度に依存していることを示している。
実験結果に基づき,静的データセットにおける時間的概念ドリフトの影響を最小限に抑えるための実践的な提案を行った。
- 参考スコア(独自算出の注目度): 30.315424983805087
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: A crucial aspect of a rumor detection model is its ability to generalize, particularly its ability to detect emerging, previously unknown rumors. Past research has indicated that content-based (i.e., using solely source posts as input) rumor detection models tend to perform less effectively on unseen rumors. At the same time, the potential of context-based models remains largely untapped. The main contribution of this paper is in the in-depth evaluation of the performance gap between content and context-based models specifically on detecting new, unseen rumors. Our empirical findings demonstrate that context-based models are still overly dependent on the information derived from the rumors' source post and tend to overlook the significant role that contextual information can play. We also study the effect of data split strategies on classifier performance. Based on our experimental results, the paper also offers practical suggestions on how to minimize the effects of temporal concept drift in static datasets during the training of rumor detection methods.
- Abstract(参考訳): 噂検出モデルの重要な側面は、その一般化能力、特に、以前に未知の噂を検出する能力である。
過去の研究では、コンテンツベース(つまり、入力としてのみソースポストを使用する)の噂検出モデルは、目に見えない噂に対して効果が低い傾向があることが示されている。
同時に、コンテキストベースのモデルの可能性は、ほとんど未解決のままである。
本研究の主な貢献は、コンテンツとコンテキストベースモデル間の性能ギャップの詳細な評価であり、特に新しい未知の噂を検出することである。
我々の経験的知見は、コンテキストベースモデルは、まだ噂のソース投稿から得られた情報に過度に依存しており、文脈情報が果たす重要な役割を見逃す傾向があることを示している。
また,データ分割戦略が分類器の性能に及ぼす影響についても検討した。
実験結果に基づいて,噂検出手法の訓練において,静的データセットにおける時間的概念ドリフトの影響を最小限に抑えるための実用的な提案を行った。
関連論文リスト
- Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - A Unified Contrastive Transfer Framework with Propagation Structure for
Boosting Low-Resource Rumor Detection [11.201348902221257]
既存の噂検出アルゴリズムは 昨日のニュースで 有望な性能を見せています
十分なトレーニングデータや事前の専門家知識が欠如しているため、予期せぬ出来事に関する噂を見つけるのが苦手である。
本稿では,十分な情報源から得られた特徴を,少数のアノテーションで少ない資料に適応させることで,噂を検出するための一貫したコントラスト転送フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-04T03:13:03Z) - Improving the Robustness of Summarization Models by Detecting and
Removing Input Noise [50.27105057899601]
本研究では,様々な種類の入力ノイズから,様々なデータセットやモデルサイズに対する性能損失を定量化する大規模な実験的検討を行った。
本稿では,モデル推論中の入力中のそのようなノイズを検出し,除去するための軽量な手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T00:33:11Z) - Interpretable Fake News Detection with Topic and Deep Variational Models [2.15242029196761]
我々は,解釈可能な特徴と手法を用いた偽ニュース検出に焦点をあてる。
我々は,テキストニュースの高密度表現を統合した深層確率モデルを開発した。
我々のモデルは最先端の競合モデルに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2022-09-04T05:31:00Z) - Robust Task-Oriented Dialogue Generation with Contrastive Pre-training
and Adversarial Filtering [17.7709632238066]
データアーティファクトは機械学習モデルにインセンティブを与え、非伝達可能な一般化を学ぶ。
我々は、MultiWOZのような一般的なデータセットがそのようなデータアーティファクトを含んでいるかどうかを検討する。
本稿では,これらの手法を無視し,一般化可能なパターンを学習することをモデルに推奨する,対照的な学習ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-20T03:13:02Z) - Detect Rumors in Microblog Posts for Low-Resource Domains via
Adversarial Contrastive Learning [8.013665071332388]
本稿では,噂データから得られた特徴を低リソースデータに適応させることにより,噂を検出するための逆相反学習フレームワークを提案する。
本フレームワークは最先端の手法よりも優れた性能を実現し,早期に噂を検出する能力に優れる。
論文 参考訳(メタデータ) (2022-04-18T03:10:34Z) - Hidden Biases in Unreliable News Detection Datasets [60.71991809782698]
データ収集中の選択バイアスがデータセットの望ましくないアーティファクトにつながることを示す。
クリーンスプリットでテストされたすべてのモデルに対して,列車/テストソースの重なりが無く,精度が大幅に低下した(>10%)。
将来的なデータセット生成には、困難/バイアスプローブとしての単純なモデルと、クリーンな非重複サイトと日付分割を使用する将来のモデル開発が含まれることを提案する。
論文 参考訳(メタデータ) (2021-04-20T17:16:41Z) - Learning from Context or Names? An Empirical Study on Neural Relation
Extraction [112.06614505580501]
テキストにおける2つの主要な情報ソースの効果について検討する:テキストコンテキストとエンティティ参照(名前)
本稿では,関係抽出のための実体型コントラスト事前学習フレームワーク(RE)を提案する。
我々のフレームワークは、異なるREシナリオにおけるニューラルモデルの有効性と堅牢性を改善することができる。
論文 参考訳(メタデータ) (2020-10-05T11:21:59Z) - Open-set Short Utterance Forensic Speaker Verification using
Teacher-Student Network with Explicit Inductive Bias [59.788358876316295]
そこで本研究では,小規模の法定フィールドデータセット上での話者検証を改善するためのパイプラインソリューションを提案する。
大規模領域外データセットを活用することで,教師学習のための知識蒸留に基づく目的関数を提案する。
提案する目的関数は,短時間の発話における教師学生の学習性能を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2020-09-21T00:58:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。