論文の概要: Classification of worldwide news articles by perceived quality, 2018-2024
- arxiv url: http://arxiv.org/abs/2511.16416v1
- Date: Thu, 20 Nov 2025 14:41:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.673076
- Title: Classification of worldwide news articles by perceived quality, 2018-2024
- Title(参考訳): 品質評価による世界のニュース記事の分類 : 2018-2024年
- Authors: Connor McElroy, Thiago E. A. de Oliveira, Chris Brogly,
- Abstract要約: 新たに作成した1,412,272の英ニュース記事のデータセットを用いて、3つの機械学習分類器と3つのディープラーニングモデルを評価した。
579のソースサイトに関する専門家のコンセンサス評価は中央値で分けられ、それぞれ706,000記事の低品質と高品質のクラスが生み出された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This study explored whether supervised machine learning and deep learning models can effectively distinguish perceived lower-quality news articles from perceived higher-quality news articles. 3 machine learning classifiers and 3 deep learning models were assessed using a newly created dataset of 1,412,272 English news articles from the Common Crawl over 2018-2024. Expert consensus ratings on 579 source websites were split at the median, creating perceived low and high-quality classes of about 706,000 articles each, with 194 linguistic features per website-level labelled article. Traditional machine learning classifiers such as the Random Forest demonstrated capable performance (0.7355 accuracy, 0.8131 ROC AUC). For deep learning, ModernBERT-large (256 context length) achieved the best performance (0.8744 accuracy; 0.9593 ROC-AUC; 0.8739 F1), followed by DistilBERT-base (512 context length) at 0.8685 accuracy and 0.9554 ROC-AUC. DistilBERT-base (256 context length) reached 0.8478 accuracy and 0.9407 ROC-AUC, while ModernBERT-base (256 context length) attained 0.8569 accuracy and 0.9470 ROC-AUC. These results suggest that the perceived quality of worldwide news articles can be effectively differentiated by traditional CPU-based machine learning classifiers and deep learning classifiers.
- Abstract(参考訳): 本研究では、教師付き機械学習モデルとディープラーニングモデルが、認識される低品質ニュース記事と知覚される高品質ニュース記事とを効果的に区別できるかどうかを検討した。
2018-2024年、Common Crawlから新たに作成された1,412,272の英ニュース記事のデータセットを使用して、3つの機械学習分類器と3つのディープラーニングモデルを評価した。
579のWebサイトにおける専門家によるコンセンサス評価は中央値に分けられ、サイトレベルのラベル付き記事ごとに194の言語的特徴を持つ、それぞれ706,000の記事の低品質と高品質のクラスが生み出された。
ランダムフォレストのような伝統的な機械学習分類器は性能(0.7355、0.8131ROC AUC)を示した。
ディープラーニングでは、ModernBERT-large (256コンテキスト長) が0.8744精度、0.9593 ROC-AUC; 0.8739 F1、DistilBERT-base (512コンテキスト長) が0.8685精度、0.9554 ROC-AUCを達成している。
DistilBERTベース(256コンテキスト長)は0.8478、OC-AUCは0.9407に達し、ModernBERTベース(256コンテキスト長)は0.8569、OC-AUCは0.9470に達した。
これらの結果から,世界のニュース記事の品質は,従来のCPUベースの機械学習分類器とディープラーニング分類器とで効果的に識別できることが示唆された。
関連論文リスト
- Beyond Correctness: Evaluating Subjective Writing Preferences Across Cultures [87.75098311090642]
現在の選好学習法は、標準ベンチマークで高い精度を達成するが、客観的な品質信号を取り除いた場合、顕著な性能劣化を示す。
我々は、8つのクリエイティブな著作ジャンルにまたがる1,800の人手による好みペア(1,200の英語、600の中国語)のデータセットであるWriteingPreferenceBenchを紹介した。
論文 参考訳(メタデータ) (2025-10-16T12:23:13Z) - NAIPv2: Debiased Pairwise Learning for Efficient Paper Quality Estimation [58.30936615525824]
本稿では,紙の品質評価のための非バイアスで効率的なフレームワークであるNAIPv2を提案する。
NAIPv2は、レビューアレーティングの不整合を低減するために、ドメイン年グループ内でペアワイズ学習を採用している。
これはペアワイズ比較に基づいてトレーニングされるが、デプロイ時に効率的なポイントワイズ予測を可能にする。
論文 参考訳(メタデータ) (2025-09-29T17:59:23Z) - Enhanced Predictive Modeling for Hazardous Near-Earth Object Detection: A Comparative Analysis of Advanced Resampling Strategies and Machine Learning Algorithms in Planetary Risk Assessment [0.0]
本研究では,二元分類フレームワークによる有害地球近傍天体(NEO)の予測のための機械学習モデルの性能評価を行った。
RFC と GBC はともに 0.987 と 0.896 の印象的な F2 スコアで最高の性能を発揮した。
論文 参考訳(メタデータ) (2025-08-20T22:50:00Z) - Binary classification for perceived quality of headlines and links on worldwide news websites, 2018-2024 [41.94295877935867]
オンラインニュースの普及により、認識される低品質ニュースの見出し/リンクが広く公開される可能性がある。
我々は、全世界のニュースサイトリンク/ヘッダーで57,544,214件のバランスの取れたデータセットを用いて、12の機械学習モデルを評価した。
論文 参考訳(メタデータ) (2025-06-11T04:05:57Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Classification Of Fake News Headline Based On Neural Networks [0.0]
本稿では,Kaggleプラットフォームが提供する18年間のニュースを含むデータセットを用いて,ニュースの見出しを分類する。
我々は、評価指標が正確であるのに対して、TF-IDFを選択して特徴とニューラルネットワークを分類器として抽出する。
我々のNNモデルは精度0.8622であり、これら4モデルの中で最も精度が高い。
論文 参考訳(メタデータ) (2022-01-24T21:37:39Z) - Semi-supervised learning for generalizable intracranial hemorrhage
detection and segmentation [0.0]
本研究は頭蓋内出血の検出・分節化のための半教師付き学習モデルの開発と評価である。
最初の「教師」ディープラーニングモデルは、2010年から2017年にかけて米国のある機関から収集された457ピクセルの頭部CTスキャンに基づいて訓練された。
2つ目の"学生"モデルは、このピクセルラベル付きデータセットと擬似ラベル付きデータセットの組み合わせでトレーニングされた。
論文 参考訳(メタデータ) (2021-05-03T00:14:43Z) - Automatic sleep stage classification with deep residual networks in a
mixed-cohort setting [63.52264764099532]
我々は,大規模コホートの一般化性を評価するために,新しいディープニューラルネットワークモデルを開発した。
総合的な分類精度はトレーニングデータの分数を増やして向上した。
論文 参考訳(メタデータ) (2020-08-21T10:48:35Z) - Deep Learning based, end-to-end metaphor detection in Greek language
with Recurrent and Convolutional Neural Networks [0.0]
本稿では,ギリシャ語におけるメタファ検出のための,エンドツーエンドのDeep Learningベースモデルを多数提示し,ベンチマークする。
畳み込みニューラルネットワークとリカレントニューラルネットワークと表現学習を組み合わせることで,ギリシャ語のメタファ検出問題に対処する。
論文 参考訳(メタデータ) (2020-07-23T12:02:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。