論文の概要: Clickbait Headline Detection in Indonesian News Sites using Multilingual
Bidirectional Encoder Representations from Transformers (M-BERT)
- arxiv url: http://arxiv.org/abs/2102.01497v1
- Date: Tue, 2 Feb 2021 14:13:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-03 16:53:28.769856
- Title: Clickbait Headline Detection in Indonesian News Sites using Multilingual
Bidirectional Encoder Representations from Transformers (M-BERT)
- Title(参考訳): 変換器(M-BERT)からの多言語双方向エンコーダ表現を用いたインドネシアニュースサイトのクリックベイト見出し検出
- Authors: Muhammad N. Fakhruzzaman, Saidah Z. Jannah, Ratih A. Ningrum, Indah
Fahmiyah
- Abstract要約: 埋め込み層として機能する事前学習言語モデルM−BERTを備えたニューラルネットワークと、100ノード隠蔽層とを組み合わせて、クリックベイト見出しを検出する。
トレーニングデータセットとして合計6632の見出しで、分類器は非常によく機能した。
インドネシア語テキスト分類タスクにおける多言語BERTの使用がテストされ、さらなる拡張が可能となった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Click counts are related to the amount of money that online advertisers paid
to news sites. Such business models forced some news sites to employ a dirty
trick of click-baiting, i.e., using a hyperbolic and interesting words,
sometimes unfinished sentence in a headline to purposefully tease the readers.
Some Indonesian online news sites also joined the party of clickbait, which
indirectly degrade other established news sites' credibility. A neural network
with a pre-trained language model M-BERT that acted as a embedding layer is
then combined with a 100 nodes hidden layer and topped with a sigmoid
classifier was trained to detect clickbait headlines. With a total of 6632
headlines as a training dataset, the classifier performed remarkably well.
Evaluated with 5-fold cross validation, it has an accuracy score of 0.914,
f1-score of 0.914, precision score of 0.916, and ROC-AUC of 0.92. The usage of
multilingual BERT in Indonesian text classification task was tested and is
possible to be enhanced further. Future possibilities, societal impact, and
limitations of the clickbait detection are discussed.
- Abstract(参考訳): クリック数は、オンライン広告主がニュースサイトに支払った金額に関連している。
このようなビジネスモデルにより、一部のニュースサイトはクリックベイティングの汚いトリック、すなわちハイパーボリックで興味深い言葉、時には見出しの未完成の文章を使用して読者を意図的にいじめることを余儀なくされた。
インドネシアの一部のオンラインニュースサイトもクリックベイトに参加し、他の既存のニュースサイトの信頼性を間接的に低下させた。
埋め込み層として機能する予め訓練された言語モデルM-BERTを有するニューラルネットワークを100ノード隠蔽層と組み合わせ、シグモイド分類器をトッピングしてクリックベイト見出しを検出する。
トレーニングデータセットとして合計6632の見出しで、分類器は著しくうまく機能しました。
5倍のクロス検証で評価され、精度スコアは0.914、f1スコアは0.914、精度スコアは0.916、ROC-AUCは0.992である。
インドネシア語テキスト分類タスクにおける多言語BERTの使用がテストされ、さらなる拡張が可能となった。
今後の可能性,社会的影響,クリックベイト検出の限界について論じる。
関連論文リスト
- Prompt-tuning for Clickbait Detection via Text Summarization [18.027598728494485]
クリックベイト(Clickbaits)は、ソーシャルな投稿や、クリック数を増やすためにユーザーを誘惑する偽ニュースの見出しだ。
既存のほとんどの手法は、クリックベイトを検出するために見出しと内容のセマンティックな類似性を計算する。
テキスト要約によるクリックベイト検出のプロンプトチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-04-17T09:39:02Z) - BanglaBait: Semi-Supervised Adversarial Approach for Clickbait Detection
on Bangla Clickbait Dataset [0.6008132390640294]
15,056個のラベル付きニュース記事と65,406個のラベル付きニュース記事を含むバングラクリックベイト検出データセットを構築した。
各記事は3人の専門言語学者によってラベル付けされ、記事のタイトル、ボディ、その他のメタデータが含まれている。
半監視世代適応ネットワーク(SS GANs)を用いて,事前学習したバングラ変圧器モデルを逆向きに微調整する。
論文 参考訳(メタデータ) (2023-11-10T17:38:46Z) - A Novel Contrastive Learning Method for Clickbait Detection on RoCliCo:
A Romanian Clickbait Corpus of News Articles [29.119911024232064]
ルーマニア語のクリックベイトコーパスは公開されていない。
クリックベイトラベルと非クリックベイトラベルを手動で注釈付けした8,313のニュースサンプルからなるルーマニア語Clickbait Corpus(RoCliCo)を紹介した。
本稿では,ニュースタイトルやコンテンツが深い距離空間にエンコードされることを学習する,BERTに基づく新しいコントラスト学習モデルを提案する。
論文 参考訳(メタデータ) (2023-10-10T11:38:16Z) - Nothing Stands Alone: Relational Fake News Detection with Hypergraph
Neural Networks [49.29141811578359]
本稿では,ニュース間のグループ間相互作用を表現するためにハイパーグラフを活用することを提案する。
提案手法は,ラベル付きニュースデータの小さなサブセットであっても,優れた性能を示し,高い性能を維持する。
論文 参考訳(メタデータ) (2022-12-24T00:19:32Z) - Multiverse: Multilingual Evidence for Fake News Detection [71.51905606492376]
Multiverseは、偽ニュースの検出に使用できる多言語エビデンスに基づく新機能である。
偽ニュース検出機能としての言語間証拠の使用仮説を確認した。
論文 参考訳(メタデータ) (2022-11-25T18:24:17Z) - UrduFake@FIRE2020: Shared Track on Fake News Identification in Urdu [62.6928395368204]
本稿では、ウルドゥー語における偽ニュース検出に関するFIRE 2020における最初の共有タスクの概要について述べる。
目標は、900の注釈付きニュース記事と400のニュース記事からなるデータセットを使って偽ニュースを特定することである。
データセットには、 (i) Health、 (ii) Sports、 (iii) Showbiz、 (iv) Technology、 (v) Businessの5つのドメインのニュースが含まれている。
論文 参考訳(メタデータ) (2022-07-25T03:46:51Z) - Overview of the Shared Task on Fake News Detection in Urdu at FIRE 2020 [62.6928395368204]
タスクはバイナリ分類タスクとして設定され、ゴールはリアルニュースとフェイクニュースを区別することである。
トレーニング用に900の注釈付きニュース記事とテスト用に400のニュース記事のデータセットを作成した。
6カ国(インド、中国、エジプト、ドイツ、パキスタン、イギリス)の42チームが登録された。
論文 参考訳(メタデータ) (2022-07-25T03:41:32Z) - Overview of the Shared Task on Fake News Detection in Urdu at FIRE 2021 [55.41644538483948]
共有タスクの目標は、コミュニティにこの重要な問題を解決するための効率的な方法を考え出すことを動機付けることです。
トレーニングセットには1300件の注釈付きニュース記事、750件のリアルニュース、550件のフェイクニュース、300件のニュース記事、200件のリアルニュース、100件のフェイクニュースが含まれている。
F1-macroスコアは0.679で、これは過去最高の0.907 F1-macroよりも低かった。
論文 参考訳(メタデータ) (2022-07-11T18:58:36Z) - Faking Fake News for Real Fake News Detection: Propaganda-loaded
Training Data Generation [105.20743048379387]
提案手法は,人間によるプロパガンダのスタイルや戦略から情報を得た学習例を生成するための新しいフレームワークである。
具体的には、生成した記事の有効性を確保するために、自然言語推論によって導かれる自己臨界シーケンストレーニングを行う。
実験の結果、PropaNewsでトレーニングされた偽ニュース検知器は、2つの公開データセットで3.62~7.69%のF1スコアで人書きの偽情報を検出するのに優れていることがわかった。
論文 参考訳(メタデータ) (2022-03-10T14:24:19Z) - Hostility Detection and Covid-19 Fake News Detection in Social Media [1.3499391168620467]
我々は,Hindi BERTとHindi FastTextモデルを用いて,乱用言語検出と特徴抽出を併用したモデルを構築した。
また、英語のツイートでCovid-19に関連する偽ニュースを識別するためのモデルを構築しています。
論文 参考訳(メタデータ) (2021-01-15T03:24:36Z) - Clickbait Detection using Multiple Categorization Techniques [6.396288020763144]
本稿では,クリックベイトとノンクリックベイトを分離するためのハイブリッド分類手法を提案する。
提案するハイブリッドモデルは, 個々の分類手法よりも堅牢で信頼性が高く, 効率的である。
論文 参考訳(メタデータ) (2020-03-29T07:16:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。