論文の概要: WISE: Web Information Satire and Fakeness Evaluation
- arxiv url: http://arxiv.org/abs/2512.24000v1
- Date: Tue, 30 Dec 2025 05:44:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.292628
- Title: WISE: Web Information Satire and Fakeness Evaluation
- Title(参考訳): WISE: Web 情報の難易度とフェイクネス評価
- Authors: Gaurab Chhetri, Subasish Das, Tausif Islam Chowdhury,
- Abstract要約: 軽量モデルであるMiniLMは、すべてのモデルの中で最高の精度(87.58%)を達成する。
DistilBERTは86.28%の精度と93.90%のROC-AUCで優れた効率精度のトレードオフを提供する。
- 参考スコア(独自算出の注目度): 0.9694940903078657
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distinguishing fake or untrue news from satire or humor poses a unique challenge due to their overlapping linguistic features and divergent intent. This study develops WISE (Web Information Satire and Fakeness Evaluation) framework which benchmarks eight lightweight transformer models alongside two baseline models on a balanced dataset of 20,000 samples from Fakeddit, annotated as either fake news or satire. Using stratified 5-fold cross-validation, we evaluate models across comprehensive metrics including accuracy, precision, recall, F1-score, ROC-AUC, PR-AUC, MCC, Brier score, and Expected Calibration Error. Our evaluation reveals that MiniLM, a lightweight model, achieves the highest accuracy (87.58%) among all models, while RoBERTa-base achieves the highest ROC-AUC (95.42%) and strong accuracy (87.36%). DistilBERT offers an excellent efficiency-accuracy trade-off with 86.28\% accuracy and 93.90\% ROC-AUC. Statistical tests confirm significant performance differences between models, with paired t-tests and McNemar tests providing rigorous comparisons. Our findings highlight that lightweight models can match or exceed baseline performance, offering actionable insights for deploying misinformation detection systems in real-world, resource-constrained settings.
- Abstract(参考訳): 風刺やユーモアから偽ニュースや偽ニュースや偽ニュースを消し去ることは、言語的特徴が重なり、意図が相違していることから、ユニークな挑戦となる。
本研究では,F waskedditの2万サンプルのバランスの取れたデータセット上に,8つの軽量トランスフォーマーモデルと2つのベースラインモデルとをベンチマークするWISE(Web Information Satire and Fakeness Evaluation)フレームワークを開発した。
階層化された5倍のクロスバリデーションを用いて、精度、精度、リコール、F1スコア、ROC-AUC、PR-AUC、MCC、Brierスコア、予測校正誤差を含む総合的な指標のモデルを評価する。
評価の結果,軽量モデルであるMiniLMは全モデルの中で最も高い精度(87.58%)を達成し,RoBERTaベースは高いROC-AUC(95.42%)と強い精度87.36%(87.36%)を達成した。
DistilBERTは86.28 %の精度と93.90 %のROC-AUCで優れた効率精度のトレードオフを提供する。
統計的テストは、厳密な比較を行うため、ペアのt-testとマクネマールテストとで、モデル間の顕著な性能差を確認した。
我々の研究結果は、軽量モデルがベースライン性能に適合または超える可能性があることを示し、現実のリソース制約された環境で誤情報検出システムをデプロイするための実用的な洞察を提供する。
関連論文リスト
- Beyond Correctness: Evaluating Subjective Writing Preferences Across Cultures [87.75098311090642]
現在の選好学習法は、標準ベンチマークで高い精度を達成するが、客観的な品質信号を取り除いた場合、顕著な性能劣化を示す。
我々は、8つのクリエイティブな著作ジャンルにまたがる1,800の人手による好みペア(1,200の英語、600の中国語)のデータセットであるWriteingPreferenceBenchを紹介した。
論文 参考訳(メタデータ) (2025-10-16T12:23:13Z) - Malware Classification from Memory Dumps Using Machine Learning, Transformers, and Large Language Models [1.038088229789127]
本研究では,異なる特徴セットとデータ構成を用いたマルウェア分類タスクにおける各種分類モデルの性能について検討する。
XGBはTop 45 Featuresで87.42%の精度を達成し、他の全てのモデルを上回った。
ディープラーニングモデルはパフォーマンスが悪く、RNNは66.71%の精度でトランスフォーマーは71.59%に達した。
論文 参考訳(メタデータ) (2025-03-04T00:24:21Z) - Test-Time Adaptation Induces Stronger Accuracy and Agreement-on-the-Line [65.14099135546594]
最近のテスト時間適応 (TTA) 法は, モデルに非常に弱い相関関係を示すシフトであっても, ACL と AGL の傾向を大幅に強化する。
この結果から,TTAとAGLに基づく推定手法を組み合わせることで,より広い分布シフトの集合に対する高精度なモデルOOD性能を推定できることが示唆された。
論文 参考訳(メタデータ) (2023-10-07T23:21:25Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Understanding Factual Errors in Summarization: Errors, Summarizers,
Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。
本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文 参考訳(メタデータ) (2022-05-25T15:26:48Z) - Detecting Errors and Estimating Accuracy on Unlabeled Data with
Self-training Ensembles [38.23896575179384]
本稿では,この2つの課題に同時に対処する,原則的かつ実用的な枠組みを提案する。
1つのインスタンス化は、教師なし精度推定における推定誤差を少なくとも70%削減し、エラー検出のためのF1スコアを少なくとも4.7%改善する。
iWildCamでは、教師なし精度推定における推定誤差を少なくとも70%削減し、エラー検出のためのF1スコアを少なくとも4.7%改善する。
論文 参考訳(メタデータ) (2021-06-29T21:32:51Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。