論文の概要: Clickbait Detection using Multiple Categorization Techniques
- arxiv url: http://arxiv.org/abs/2003.12961v1
- Date: Sun, 29 Mar 2020 07:16:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 13:24:46.960245
- Title: Clickbait Detection using Multiple Categorization Techniques
- Title(参考訳): 複数分類手法によるクリックベイト検出
- Authors: Abinash Pujahari and Dilip Singh Sisodia
- Abstract要約: 本稿では,クリックベイトとノンクリックベイトを分離するためのハイブリッド分類手法を提案する。
提案するハイブリッドモデルは, 個々の分類手法よりも堅牢で信頼性が高く, 効率的である。
- 参考スコア(独自算出の注目度): 6.396288020763144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Clickbaits are online articles with deliberately designed misleading titles
for luring more and more readers to open the intended web page. Clickbaits are
used to tempted visitors to click on a particular link either to monetize the
landing page or to spread the false news for sensationalization. The presence
of clickbaits on any news aggregator portal may lead to unpleasant experience
to readers. Automatic detection of clickbait headlines from news headlines has
been a challenging issue for the machine learning community. A lot of methods
have been proposed for preventing clickbait articles in recent past. However,
the recent techniques available in detecting clickbaits are not much robust.
This paper proposes a hybrid categorization technique for separating clickbait
and non-clickbait articles by integrating different features, sentence
structure, and clustering. During preliminary categorization, the headlines are
separated using eleven features. After that, the headlines are recategorized
using sentence formality, syntactic similarity measures. In the last phase, the
headlines are again recategorized by applying clustering using word vector
similarity based on t-Stochastic Neighbourhood Embedding (t-SNE) approach.
After categorization of these headlines, machine learning models are applied to
the data set to evaluate machine learning algorithms. The obtained experimental
results indicate the proposed hybrid model is more robust, reliable and
efficient than any individual categorization techniques for the real-world
dataset we used.
- Abstract(参考訳): クリックベイト(clickbaits)は、意図したウェブページを開くように、ますます多くの読者を誘うために意図的に誤ったタイトルをデザインしたオンライン記事である。
クリックベイトは、訪問者が特定のリンクをクリックしてランディングページの収益化やセンセーショナル化のための偽ニュースの拡散を誘惑するために使われる。
ニュースアグリゲータポータルにクリックベイトが存在することは、読者にとって不快な体験につながるかもしれない。
ニュース見出しからのクリックベイト見出しの自動検出は、機械学習コミュニティにとって難しい問題となっている。
近年,クリックベイト記事の防止に多くの方法が提案されている。
しかし、最近のクリックベイト検出のテクニックはそれほど堅牢ではない。
本稿では,クリックベイトとノンクリックベイトを,異なる特徴,文構造,クラスタリングを統合したハイブリッド分類手法を提案する。
予備分類の間、見出しは11の特徴を使って分離される。
その後、見出しは文形式、構文的類似度を用いて再分類される。
最後のフェーズでは、t-Stochastic Neighbourhood Embedding (t-SNE)アプローチに基づいた単語ベクトル類似性を用いたクラスタリングを適用することで、見出しを再び分類する。
これらの見出しの分類後、機械学習モデルをデータセットに適用し、機械学習アルゴリズムを評価する。
得られた実験結果から,提案したハイブリッドモデルは実世界のデータセットに対する個々の分類手法よりも堅牢で信頼性が高く,効率的であることが示唆された。
関連論文リスト
- SCStory: Self-supervised and Continual Online Story Discovery [53.72745249384159]
SCStoryは、素早く公開されたニュース記事ストリームを人間のアノテーションなしでリアルタイムで消化するのに役立つ。
SCStoryは、ニュース記事ストリームのストーリー指向適応モデリングという新しいアイデアを取り入れて、自己指導的かつ継続的な学習を取り入れている。
論文 参考訳(メタデータ) (2023-11-27T04:50:01Z) - BanglaBait: Semi-Supervised Adversarial Approach for Clickbait Detection
on Bangla Clickbait Dataset [0.6008132390640294]
15,056個のラベル付きニュース記事と65,406個のラベル付きニュース記事を含むバングラクリックベイト検出データセットを構築した。
各記事は3人の専門言語学者によってラベル付けされ、記事のタイトル、ボディ、その他のメタデータが含まれている。
半監視世代適応ネットワーク(SS GANs)を用いて,事前学習したバングラ変圧器モデルを逆向きに微調整する。
論文 参考訳(メタデータ) (2023-11-10T17:38:46Z) - A Novel Contrastive Learning Method for Clickbait Detection on RoCliCo:
A Romanian Clickbait Corpus of News Articles [29.119911024232064]
ルーマニア語のクリックベイトコーパスは公開されていない。
クリックベイトラベルと非クリックベイトラベルを手動で注釈付けした8,313のニュースサンプルからなるルーマニア語Clickbait Corpus(RoCliCo)を紹介した。
本稿では,ニュースタイトルやコンテンツが深い距離空間にエンコードされることを学習する,BERTに基づく新しいコントラスト学習モデルを提案する。
論文 参考訳(メタデータ) (2023-10-10T11:38:16Z) - Verifying the Robustness of Automatic Credibility Assessment [79.08422736721764]
テキスト分類法は信頼性の低い内容を検出する手段として広く研究されている。
入力テキストの無意味な変更は、モデルを誤解させることがある。
偽情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAを紹介する。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Like a Good Nearest Neighbor: Practical Content Moderation and Text
Classification [66.02091763340094]
LaGoNN(Good Nearest Neighbor)は、学習可能なパラメータを導入することなく、隣人の情報で入力テキストを変更するSetFitの変更である。
LaGoNNは望ましくないコンテンツやテキスト分類のフラグ付けに有効であり、SetFitのパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-02-17T15:43:29Z) - Twitter Referral Behaviours on News Consumption with Ensemble Clustering
of Click-Stream Data in Turkish Media [2.9005223064604078]
本研究は,Twitter のレファレンスに追随するニュース消費パターンを識別するために,組織ウェブサイトにおける読者のクリック活動について調査する。
調査は、ログデータをニュースコンテンツとリンクして洞察を深めることで、幅広い視点に展開されている。
論文 参考訳(メタデータ) (2022-02-04T09:57:13Z) - WeClick: Weakly-Supervised Video Semantic Segmentation with Click
Annotations [64.52412111417019]
WeClick と呼ばれるクリックアノテーション付きビデオセマンティックセマンティックセマンティックパイプラインを提案する。
詳細なセマンティック情報はクリックによってキャプチャされないため、クリックラベルによる直接トレーニングはセグメンテーションの予測が不十分になる。
WeClickは最先端の手法より優れ、ベースラインよりも10.24%のmIoUで性能を向上し、リアルタイム実行を実現している。
論文 参考訳(メタデータ) (2021-07-07T09:12:46Z) - Clickbait Headline Detection in Indonesian News Sites using Multilingual
Bidirectional Encoder Representations from Transformers (M-BERT) [0.0]
埋め込み層として機能する事前学習言語モデルM−BERTを備えたニューラルネットワークと、100ノード隠蔽層とを組み合わせて、クリックベイト見出しを検出する。
トレーニングデータセットとして合計6632の見出しで、分類器は非常によく機能した。
インドネシア語テキスト分類タスクにおける多言語BERTの使用がテストされ、さらなる拡張が可能となった。
論文 参考訳(メタデータ) (2021-02-02T14:13:02Z) - Context-Based Quotation Recommendation [60.93257124507105]
本稿では,新しい文脈対応引用レコメンデーションシステムを提案する。
これは、所定のソース文書から引用可能な段落とトークンの列挙リストを生成する。
音声テキストと関連するニュース記事の収集実験を行う。
論文 参考訳(メタデータ) (2020-05-17T17:49:53Z) - Hooks in the Headline: Learning to Generate Headlines with Controlled
Styles [69.30101340243375]
我々は,見出しを3つのスタイルで強化する新しいタスク,Styllistic Headline Generation (SHG)を提案する。
TitleStylistは、要約と再構築タスクをマルチタスクフレームワークに組み合わせることで、スタイル固有の見出しを生成する。
我々のモデルが生成したアトラクションスコアは、最先端の要約モデルの9.68%を超え、人間による参照よりも優れています。
論文 参考訳(メタデータ) (2020-04-04T17:24:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。