論文の概要: Binary classification for perceived quality of headlines and links on worldwide news websites, 2018-2024
- arxiv url: http://arxiv.org/abs/2506.09381v1
- Date: Wed, 11 Jun 2025 04:05:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.362161
- Title: Binary classification for perceived quality of headlines and links on worldwide news websites, 2018-2024
- Title(参考訳): 世界のニュースサイトにおける見出し・リンクの質評価のためのバイナリ分類 : 2018-2024年
- Authors: Austin McCutcheon, Thiago E. A. de Oliveira, Aleksandr Zheleznov, Chris Brogly,
- Abstract要約: オンラインニュースの普及により、認識される低品質ニュースの見出し/リンクが広く公開される可能性がある。
我々は、全世界のニュースサイトリンク/ヘッダーで57,544,214件のバランスの取れたデータセットを用いて、12の機械学習モデルを評価した。
- 参考スコア(独自算出の注目度): 41.94295877935867
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The proliferation of online news enables potential widespread publication of perceived low-quality news headlines/links. As a result, we investigated whether it was possible to automatically distinguish perceived lower-quality news headlines/links from perceived higher-quality headlines/links. We evaluated twelve machine learning models on a binary, balanced dataset of 57,544,214 worldwide news website links/headings from 2018-2024 (28,772,107 per class) with 115 extracted linguistic features. Binary labels for each text were derived from scores based on expert consensus regarding the respective news domain quality. Traditional ensemble methods, particularly the bagging classifier, had strong performance (88.1% accuracy, 88.3% F1, 80/20 train/test split). Fine-tuned DistilBERT achieved the highest accuracy (90.3%, 80/20 train/test split) but required more training time. The results suggest that both NLP features with traditional classifiers and deep learning models can effectively differentiate perceived news headline/link quality, with some trade-off between predictive performance and train time.
- Abstract(参考訳): オンラインニュースの普及により、認識される低品質ニュースの見出し/リンクが広く公開される可能性がある。
その結果,低品質ニュースの見出し・リンクと高品質ニュースの見出し・リンクを自動的に区別できるかどうかを検討した。
我々は,2018-2024(28,772,107クラス)と115の言語的特徴を抽出した。
各テキストのバイナリラベルは、各ニュースドメインの品質に関する専門家のコンセンサスに基づいてスコアから導出された。
従来のアンサンブル法、特にバッグ分類器は、高い性能(88.1%の精度、88.3%のF1、80/20の列車/テストスプリット)を持っていた。
微調整のDistilBERTは最高精度(90.3%、80/20列車/テストスプリット)を達成したが、より多くの訓練時間を必要とした。
その結果,従来の分類器によるNLP特徴と深層学習モデルの両方が,予測性能と列車時間とのトレードオフを伴って,認識されたニュース見出し/リンク品質を効果的に識別できることが示唆された。
関連論文リスト
- A Regularized LSTM Method for Detecting Fake News Articles [0.0]
本稿では,偽ニュース記事を検出するための高度な機械学習ソリューションを開発する。
我々は、23,502の偽ニュース記事と21,417の正確なニュース記事を含む、包括的なニュース記事のデータセットを活用している。
私たちの研究は、そのようなモデルを現実世界のアプリケーションにデプロイする可能性を強調しています。
論文 参考訳(メタデータ) (2024-11-16T05:54:36Z) - Speechworthy Instruction-tuned Language Models [71.8586707840169]
提案手法は,学習の促進と嗜好の両面において,一般的な命令調整型LLMの音声適合性の向上を図っている。
我々は,各手法が生成した応答の音声適合性向上にどのように貢献するかを示すために,語彙的,構文的,定性的な分析を共有する。
論文 参考訳(メタデータ) (2024-09-23T02:34:42Z) - Multiverse: Multilingual Evidence for Fake News Detection [71.51905606492376]
Multiverseは、偽ニュースの検出に使用できる多言語エビデンスに基づく新機能である。
偽ニュース検出機能としての言語間証拠の使用仮説を確認した。
論文 参考訳(メタデータ) (2022-11-25T18:24:17Z) - Distant finetuning with discourse relations for stance classification [55.131676584455306]
そこで本研究では,定位分類のモデルとして,原文から銀ラベルでデータを抽出し,微調整する手法を提案する。
また,様々な段階において微調整に用いるデータのノイズレベルが減少する3段階のトレーニングフレームワークを提案する。
NLPCC 2021共有タスクArgumentative Text Understanding for AI Debaterでは,26の競合チームの中で1位にランクインした。
論文 参考訳(メタデータ) (2022-04-27T04:24:35Z) - Multi-channel CNN to classify nepali covid-19 related tweets using
hybrid features [1.713291434132985]
私たちは、ハイブリッド機能と呼ばれる構文情報と意味情報を組み合わせることで、それぞれのツイートを表現します。
我々は、複数のCNNをアンサンブルする新しいマルチチャネル畳み込みニューラルネットワーク(MCNN)を設計する。
提案手法と,NepCOV19Tweetsデータセット上でツイートを分類するMCNNモデルの有効性を評価する。
論文 参考訳(メタデータ) (2022-03-19T09:55:05Z) - Classification Of Fake News Headline Based On Neural Networks [0.0]
本稿では,Kaggleプラットフォームが提供する18年間のニュースを含むデータセットを用いて,ニュースの見出しを分類する。
我々は、評価指標が正確であるのに対して、TF-IDFを選択して特徴とニューラルネットワークを分類器として抽出する。
我々のNNモデルは精度0.8622であり、これら4モデルの中で最も精度が高い。
論文 参考訳(メタデータ) (2022-01-24T21:37:39Z) - Transforming Fake News: Robust Generalisable News Classification Using
Transformers [8.147652597876862]
パブリックなISOTとCombined Corpusデータセットを使用して、偽ニュースを識別するトランスフォーマーの能力を調べる。
そこで本研究では,モデルトレーニングと最終展開推論システムの両方から,そのような項目を除去する2段階の新たな分類パイプラインを提案する。
ISOTとコンバインド・コーパスのデータセットによる実験では、トランスフォーマーは分布一般化から最大4.9%までのF1スコアを達成している。
論文 参考訳(メタデータ) (2021-09-20T19:03:16Z) - Transformer-based Language Model Fine-tuning Methods for COVID-19 Fake
News Detection [7.29381091750894]
偽ニュース検出のためのトランスフォーマーに基づく言語モデルの微調整手法を提案する。
まず、個々のモデルのトークン語彙を専門用語の実際の意味論のために拡張する。
最後に、普遍言語モデルRoBERTaとドメイン固有モデルCT-BERTによって抽出された予測特徴を、複数の層認識によって融合させ、微細で高レベルな特定の表現を統合する。
論文 参考訳(メタデータ) (2021-01-14T09:05:42Z) - LTIatCMU at SemEval-2020 Task 11: Incorporating Multi-Level Features for
Multi-Granular Propaganda Span Identification [70.1903083747775]
本稿では,新聞記事におけるプロパガンダ・スパン識別の課題について述べる。
本稿では,BERT-BiLSTMに基づくプロパガンダ分類モデルを提案する。
論文 参考訳(メタデータ) (2020-08-11T16:14:47Z) - A Systematic Evaluation: Fine-Grained CNN vs. Traditional CNN
Classifiers [54.996358399108566]
本稿では,大規模分類データセット上でトップノーチ結果を示すランドマーク一般的なCNN分類器の性能について検討する。
最先端のきめ細かい分類器と比較する。
実験において, 粒度の細かい分類器がベースラインを高められるかどうかを判定するために, 6つのデータセットについて広範囲に評価する。
論文 参考訳(メタデータ) (2020-03-24T23:49:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。