論文の概要: A Novel Contrastive Learning Method for Clickbait Detection on RoCliCo:
A Romanian Clickbait Corpus of News Articles
- arxiv url: http://arxiv.org/abs/2310.06540v1
- Date: Tue, 10 Oct 2023 11:38:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 15:46:12.004527
- Title: A Novel Contrastive Learning Method for Clickbait Detection on RoCliCo:
A Romanian Clickbait Corpus of News Articles
- Title(参考訳): RoCliCoにおけるクリックベイト検出のための新しいコントラスト学習法--ニュース記事のルーマニア語クリックベイトコーパス
- Authors: Daria-Mihaela Broscoteanu, Radu Tudor Ionescu
- Abstract要約: ルーマニア語のクリックベイトコーパスは公開されていない。
クリックベイトラベルと非クリックベイトラベルを手動で注釈付けした8,313のニュースサンプルからなるルーマニア語Clickbait Corpus(RoCliCo)を紹介した。
本稿では,ニュースタイトルやコンテンツが深い距離空間にエンコードされることを学習する,BERTに基づく新しいコントラスト学習モデルを提案する。
- 参考スコア(独自算出の注目度): 29.119911024232064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To increase revenue, news websites often resort to using deceptive news
titles, luring users into clicking on the title and reading the full news.
Clickbait detection is the task that aims to automatically detect this form of
false advertisement and avoid wasting the precious time of online users.
Despite the importance of the task, to the best of our knowledge, there is no
publicly available clickbait corpus for the Romanian language. To this end, we
introduce a novel Romanian Clickbait Corpus (RoCliCo) comprising 8,313 news
samples which are manually annotated with clickbait and non-clickbait labels.
Furthermore, we conduct experiments with four machine learning methods, ranging
from handcrafted models to recurrent and transformer-based neural networks, to
establish a line-up of competitive baselines. We also carry out experiments
with a weighted voting ensemble. Among the considered baselines, we propose a
novel BERT-based contrastive learning model that learns to encode news titles
and contents into a deep metric space such that titles and contents of
non-clickbait news have high cosine similarity, while titles and contents of
clickbait news have low cosine similarity. Our data set and code to reproduce
the baselines are publicly available for download at
https://github.com/dariabroscoteanu/RoCliCo.
- Abstract(参考訳): 収入を増やすために、ニュースサイトはしばしば偽ニュースのタイトルを使い、ユーザーがタイトルをクリックして全ニュースを読むのを誘う。
クリックベイト検出は、このような偽の広告を自動的に検出し、オンラインユーザの貴重な時間を無駄にしないようにするタスクである。
タスクの重要性にもかかわらず、私たちの知る限りでは、ルーマニア語のクリックベイトコーパスは公開されていない。
この目的のために,クリックベイトラベルと非クリックベイトラベルを手作業で注釈付けした8,313のニュースサンプルからなるルーマニア語Clickbait Corpus (RoCliCo)を紹介した。
さらに,手作りモデルからリカレントおよびトランスフォーマーベースニューラルネットワークに至るまで,4つの機械学習手法を用いて実験を行い,競争力のあるベースラインを確立する。
また,重み付き投票アンサンブルによる実験も行った。
本研究では,非クリックベイトニュースのタイトルと内容がコサイン類似度が高く,クリックベイトニュースのタイトルと内容がコサイン類似度が低いような,深い距離空間にニュースタイトルとコンテンツをエンコードすることを学ぶ,bertに基づく新しいコントラスト学習モデルを提案する。
私たちのデータセットとベースラインを再現するコードは、https://github.com/dariabroscoteanu/RoCliCoでダウンロードできます。
関連論文リスト
- A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Prompt-tuning for Clickbait Detection via Text Summarization [18.027598728494485]
クリックベイト(Clickbaits)は、ソーシャルな投稿や、クリック数を増やすためにユーザーを誘惑する偽ニュースの見出しだ。
既存のほとんどの手法は、クリックベイトを検出するために見出しと内容のセマンティックな類似性を計算する。
テキスト要約によるクリックベイト検出のプロンプトチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-04-17T09:39:02Z) - BanglaBait: Semi-Supervised Adversarial Approach for Clickbait Detection
on Bangla Clickbait Dataset [0.6008132390640294]
15,056個のラベル付きニュース記事と65,406個のラベル付きニュース記事を含むバングラクリックベイト検出データセットを構築した。
各記事は3人の専門言語学者によってラベル付けされ、記事のタイトル、ボディ、その他のメタデータが含まれている。
半監視世代適応ネットワーク(SS GANs)を用いて,事前学習したバングラ変圧器モデルを逆向きに微調整する。
論文 参考訳(メタデータ) (2023-11-10T17:38:46Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Faking Fake News for Real Fake News Detection: Propaganda-loaded
Training Data Generation [105.20743048379387]
提案手法は,人間によるプロパガンダのスタイルや戦略から情報を得た学習例を生成するための新しいフレームワークである。
具体的には、生成した記事の有効性を確保するために、自然言語推論によって導かれる自己臨界シーケンストレーニングを行う。
実験の結果、PropaNewsでトレーニングされた偽ニュース検知器は、2つの公開データセットで3.62~7.69%のF1スコアで人書きの偽情報を検出するのに優れていることがわかった。
論文 参考訳(メタデータ) (2022-03-10T14:24:19Z) - DeepTitle -- Leveraging BERT to generate Search Engine Optimized
Headlines [0.0]
本稿では,事前学習した言語モデルを用いて,ドイツ語のニュース見出し生成を抽象化する方法について紹介する。
我々は,抽象的なテキスト要約のための細調整技術,すなわちエンコーダとデコーダに異なるベイトを使用する技術の現状を取り入れた。
ドイツのニュースデータセット上で実験を行い, ROUGE-L-gram Fスコアを40.02で達成した。
論文 参考訳(メタデータ) (2021-07-22T21:32:54Z) - WeClick: Weakly-Supervised Video Semantic Segmentation with Click
Annotations [64.52412111417019]
WeClick と呼ばれるクリックアノテーション付きビデオセマンティックセマンティックセマンティックパイプラインを提案する。
詳細なセマンティック情報はクリックによってキャプチャされないため、クリックラベルによる直接トレーニングはセグメンテーションの予測が不十分になる。
WeClickは最先端の手法より優れ、ベースラインよりも10.24%のmIoUで性能を向上し、リアルタイム実行を実現している。
論文 参考訳(メタデータ) (2021-07-07T09:12:46Z) - User Preference-aware Fake News Detection [61.86175081368782]
既存の偽ニュース検出アルゴリズムは、詐欺信号のニュースコンテンツをマイニングすることに焦点を当てている。
本稿では,共同コンテンツとグラフモデリングにより,ユーザの好みから様々な信号を同時にキャプチャする新しいフレームワークUPFDを提案する。
論文 参考訳(メタデータ) (2021-04-25T21:19:24Z) - Clickbait Headline Detection in Indonesian News Sites using Multilingual
Bidirectional Encoder Representations from Transformers (M-BERT) [0.0]
埋め込み層として機能する事前学習言語モデルM−BERTを備えたニューラルネットワークと、100ノード隠蔽層とを組み合わせて、クリックベイト見出しを検出する。
トレーニングデータセットとして合計6632の見出しで、分類器は非常によく機能した。
インドネシア語テキスト分類タスクにおける多言語BERTの使用がテストされ、さらなる拡張が可能となった。
論文 参考訳(メタデータ) (2021-02-02T14:13:02Z) - Clickbait Detection using Multiple Categorization Techniques [6.396288020763144]
本稿では,クリックベイトとノンクリックベイトを分離するためのハイブリッド分類手法を提案する。
提案するハイブリッドモデルは, 個々の分類手法よりも堅牢で信頼性が高く, 効率的である。
論文 参考訳(メタデータ) (2020-03-29T07:16:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。