論文の概要: True or False: Does the Deep Learning Model Learn to Detect Rumors?
- arxiv url: http://arxiv.org/abs/2112.00245v1
- Date: Wed, 1 Dec 2021 02:59:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-02 14:39:30.096904
- Title: True or False: Does the Deep Learning Model Learn to Detect Rumors?
- Title(参考訳): 真実か偽か:ディープラーニングモデルは噂を検出することを学ぶか?
- Authors: Shiwen Ni, Jiawen Li, and Hung-Yu Kao
- Abstract要約: 我々は,よく機能しているように見えるディープラーニングモデルが,実際に噂を検出することを学んでいるかどうかを調査する。
BERTモデルを用いて,領域外サンプルの一般化能力に関するモデルの評価を行った。
本稿では,ペアテスト(PairT)と呼ばれる新しい評価手法を提案する。
- 参考スコア(独自算出の注目度): 6.6908747077585105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is difficult for humans to distinguish the true and false of rumors, but
current deep learning models can surpass humans and achieve excellent accuracy
on many rumor datasets. In this paper, we investigate whether deep learning
models that seem to perform well actually learn to detect rumors. We evaluate
models on their generalization ability to out-of-domain examples by fine-tuning
BERT-based models on five real-world datasets and evaluating against all test
sets. The experimental results indicate that the generalization ability of the
models on other unseen datasets are unsatisfactory, even common-sense rumors
cannot be detected. Moreover, we found through experiments that models take
shortcuts and learn absurd knowledge when the rumor datasets have serious data
pitfalls. This means that simple modifications to the rumor text based on
specific rules will lead to inconsistent model predictions. To more
realistically evaluate rumor detection models, we proposed a new evaluation
method called paired test (PairT), which requires models to correctly predict a
pair of test samples at the same time. Furthermore, we make recommendations on
how to better create rumor dataset and evaluate rumor detection model at the
end of this paper.
- Abstract(参考訳): 人間が噂の真偽を区別することは難しいが、現在のディープラーニングモデルは人間を超越し、多くの噂データセットにおいて優れた精度を達成することができる。
本稿では,よく機能しているように見えるディープラーニングモデルが,実際に噂を検出することを学習しているかどうかを考察する。
実世界の5つのデータセット上のBERTモデルを微調整し、全てのテストセットに対して評価することにより、領域外サンプルの一般化能力を評価する。
実験の結果、他の未知のデータセットにおけるモデルの一般化能力は不十分であり、一般的な噂でさえ検出できないことが示された。
さらに、モデルが近道を取って、噂のデータセットに深刻なデータ落とし穴があるときにばかげた知識を学ぶ実験を通じて発見した。
これは、特定の規則に基づく噂文の簡単な修正が、矛盾したモデル予測につながることを意味する。
そこで本研究では, 提案手法であるペアテスト (pairt) を用いて, 音波検出モデルをより現実的に評価する手法を提案し, その評価手法であるペアテスト (pairt) を提案する。
さらに,提案論文の最後には,噂データセットのより良い作成方法や,噂検出モデルの評価について提案する。
関連論文リスト
- More precise edge detections [0.0]
エッジ検出 (ED) はコンピュータビジョンの基本的なタスクである。
現在のモデルは相変わらず不満足な精度に悩まされている。
より正確な予測のためのモデルアーキテクチャはまだ調査が必要である。
論文 参考訳(メタデータ) (2024-07-29T13:24:55Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Examining the Limitations of Computational Rumor Detection Models Trained on Static Datasets [30.315424983805087]
本稿では,コンテンツとコンテキストベースモデルのパフォーマンスギャップを詳細に評価する。
我々の経験的結果は、コンテキストベースのモデルは、まだ噂のソース投稿から得られた情報に過度に依存していることを示している。
実験結果に基づき,静的データセットにおける時間的概念ドリフトの影響を最小限に抑えるための実践的な提案を行った。
論文 参考訳(メタデータ) (2023-09-20T18:27:19Z) - TrustGAN: Training safe and trustworthy deep learning models through
generative adversarial networks [0.0]
信頼度を目標とした生成逆ネットワークパイプラインであるTrustGANを提案する。
パイプラインは、予測とこの予測に対する信頼を出力する任意のディープラーニングモデルを受け入れることができる。
ここでは、MNISTデータに基づいて訓練されたターゲット分類モデルに適用し、画像に基づいて数値を認識する。
論文 参考訳(メタデータ) (2022-11-25T09:57:23Z) - Uncertainty Estimation for Language Reward Models [5.33024001730262]
言語モデルは、テキストコーパスの教師なしトレーニングからさまざまな能力を学ぶことができる。
人間がラベル付きデータを提供するよりも選択肢を選択する方が簡単であり、事前の作業はそのような選好比較から報酬モデルをトレーニングすることで最先端のパフォーマンスを達成した。
能動的学習とリスク-逆強化学習を用いてサンプル効率とロバスト性を向上させる不確実性推定によるこれらの問題に対処することを模索する。
論文 参考訳(メタデータ) (2022-03-14T20:13:21Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z) - Hidden Biases in Unreliable News Detection Datasets [60.71991809782698]
データ収集中の選択バイアスがデータセットの望ましくないアーティファクトにつながることを示す。
クリーンスプリットでテストされたすべてのモデルに対して,列車/テストソースの重なりが無く,精度が大幅に低下した(>10%)。
将来的なデータセット生成には、困難/バイアスプローブとしての単純なモデルと、クリーンな非重複サイトと日付分割を使用する将来のモデル開発が含まれることを提案する。
論文 参考訳(メタデータ) (2021-04-20T17:16:41Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。