論文の概要: Clickbait Detection using Multiple Categorization Techniques
- arxiv url: http://arxiv.org/abs/2003.12961v1
- Date: Sun, 29 Mar 2020 07:16:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 13:24:46.960245
- Title: Clickbait Detection using Multiple Categorization Techniques
- Title(参考訳): 複数分類手法によるクリックベイト検出
- Authors: Abinash Pujahari and Dilip Singh Sisodia
- Abstract要約: 本稿では,クリックベイトとノンクリックベイトを分離するためのハイブリッド分類手法を提案する。
提案するハイブリッドモデルは, 個々の分類手法よりも堅牢で信頼性が高く, 効率的である。
- 参考スコア(独自算出の注目度): 6.396288020763144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Clickbaits are online articles with deliberately designed misleading titles
for luring more and more readers to open the intended web page. Clickbaits are
used to tempted visitors to click on a particular link either to monetize the
landing page or to spread the false news for sensationalization. The presence
of clickbaits on any news aggregator portal may lead to unpleasant experience
to readers. Automatic detection of clickbait headlines from news headlines has
been a challenging issue for the machine learning community. A lot of methods
have been proposed for preventing clickbait articles in recent past. However,
the recent techniques available in detecting clickbaits are not much robust.
This paper proposes a hybrid categorization technique for separating clickbait
and non-clickbait articles by integrating different features, sentence
structure, and clustering. During preliminary categorization, the headlines are
separated using eleven features. After that, the headlines are recategorized
using sentence formality, syntactic similarity measures. In the last phase, the
headlines are again recategorized by applying clustering using word vector
similarity based on t-Stochastic Neighbourhood Embedding (t-SNE) approach.
After categorization of these headlines, machine learning models are applied to
the data set to evaluate machine learning algorithms. The obtained experimental
results indicate the proposed hybrid model is more robust, reliable and
efficient than any individual categorization techniques for the real-world
dataset we used.
- Abstract(参考訳): クリックベイト(clickbaits)は、意図したウェブページを開くように、ますます多くの読者を誘うために意図的に誤ったタイトルをデザインしたオンライン記事である。
クリックベイトは、訪問者が特定のリンクをクリックしてランディングページの収益化やセンセーショナル化のための偽ニュースの拡散を誘惑するために使われる。
ニュースアグリゲータポータルにクリックベイトが存在することは、読者にとって不快な体験につながるかもしれない。
ニュース見出しからのクリックベイト見出しの自動検出は、機械学習コミュニティにとって難しい問題となっている。
近年,クリックベイト記事の防止に多くの方法が提案されている。
しかし、最近のクリックベイト検出のテクニックはそれほど堅牢ではない。
本稿では,クリックベイトとノンクリックベイトを,異なる特徴,文構造,クラスタリングを統合したハイブリッド分類手法を提案する。
予備分類の間、見出しは11の特徴を使って分離される。
その後、見出しは文形式、構文的類似度を用いて再分類される。
最後のフェーズでは、t-Stochastic Neighbourhood Embedding (t-SNE)アプローチに基づいた単語ベクトル類似性を用いたクラスタリングを適用することで、見出しを再び分類する。
これらの見出しの分類後、機械学習モデルをデータセットに適用し、機械学習アルゴリズムを評価する。
得られた実験結果から,提案したハイブリッドモデルは実世界のデータセットに対する個々の分類手法よりも堅牢で信頼性が高く,効率的であることが示唆された。
関連論文リスト
- Prompt-tuning for Clickbait Detection via Text Summarization [18.027598728494485]
クリックベイト(Clickbaits)は、ソーシャルな投稿や、クリック数を増やすためにユーザーを誘惑する偽ニュースの見出しだ。
既存のほとんどの手法は、クリックベイトを検出するために見出しと内容のセマンティックな類似性を計算する。
テキスト要約によるクリックベイト検出のプロンプトチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-04-17T09:39:02Z) - Forging the Forger: An Attempt to Improve Authorship Verification via Data Augmentation [52.72682366640554]
著者検証(英語: Authorship Verification, AV)とは、ある特定の著者によって書かれたか、別の人物によって書かれたのかを推測するテキスト分類タスクである。
多くのAVシステムは敵の攻撃に弱いことが示されており、悪意のある著者は、その書体スタイルを隠蔽するか、あるいは他の著者の書体を模倣することによって、積極的に分類者を騙そうとしている。
論文 参考訳(メタデータ) (2024-03-17T16:36:26Z) - SCStory: Self-supervised and Continual Online Story Discovery [53.72745249384159]
SCStoryは、素早く公開されたニュース記事ストリームを人間のアノテーションなしでリアルタイムで消化するのに役立つ。
SCStoryは、ニュース記事ストリームのストーリー指向適応モデリングという新しいアイデアを取り入れて、自己指導的かつ継続的な学習を取り入れている。
論文 参考訳(メタデータ) (2023-11-27T04:50:01Z) - BanglaBait: Semi-Supervised Adversarial Approach for Clickbait Detection
on Bangla Clickbait Dataset [0.6008132390640294]
15,056個のラベル付きニュース記事と65,406個のラベル付きニュース記事を含むバングラクリックベイト検出データセットを構築した。
各記事は3人の専門言語学者によってラベル付けされ、記事のタイトル、ボディ、その他のメタデータが含まれている。
半監視世代適応ネットワーク(SS GANs)を用いて,事前学習したバングラ変圧器モデルを逆向きに微調整する。
論文 参考訳(メタデータ) (2023-11-10T17:38:46Z) - A Novel Contrastive Learning Method for Clickbait Detection on RoCliCo:
A Romanian Clickbait Corpus of News Articles [29.119911024232064]
ルーマニア語のクリックベイトコーパスは公開されていない。
クリックベイトラベルと非クリックベイトラベルを手動で注釈付けした8,313のニュースサンプルからなるルーマニア語Clickbait Corpus(RoCliCo)を紹介した。
本稿では,ニュースタイトルやコンテンツが深い距離空間にエンコードされることを学習する,BERTに基づく新しいコントラスト学習モデルを提案する。
論文 参考訳(メタデータ) (2023-10-10T11:38:16Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Like a Good Nearest Neighbor: Practical Content Moderation and Text
Classification [66.02091763340094]
LaGoNN(Good Nearest Neighbor)は、学習可能なパラメータを導入することなく、隣人の情報で入力テキストを変更するSetFitの変更である。
LaGoNNは望ましくないコンテンツやテキスト分類のフラグ付けに有効であり、SetFitのパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-02-17T15:43:29Z) - Twitter Referral Behaviours on News Consumption with Ensemble Clustering
of Click-Stream Data in Turkish Media [2.9005223064604078]
本研究は,Twitter のレファレンスに追随するニュース消費パターンを識別するために,組織ウェブサイトにおける読者のクリック活動について調査する。
調査は、ログデータをニュースコンテンツとリンクして洞察を深めることで、幅広い視点に展開されている。
論文 参考訳(メタデータ) (2022-02-04T09:57:13Z) - WeClick: Weakly-Supervised Video Semantic Segmentation with Click
Annotations [64.52412111417019]
WeClick と呼ばれるクリックアノテーション付きビデオセマンティックセマンティックセマンティックパイプラインを提案する。
詳細なセマンティック情報はクリックによってキャプチャされないため、クリックラベルによる直接トレーニングはセグメンテーションの予測が不十分になる。
WeClickは最先端の手法より優れ、ベースラインよりも10.24%のmIoUで性能を向上し、リアルタイム実行を実現している。
論文 参考訳(メタデータ) (2021-07-07T09:12:46Z) - Clickbait Headline Detection in Indonesian News Sites using Multilingual
Bidirectional Encoder Representations from Transformers (M-BERT) [0.0]
埋め込み層として機能する事前学習言語モデルM−BERTを備えたニューラルネットワークと、100ノード隠蔽層とを組み合わせて、クリックベイト見出しを検出する。
トレーニングデータセットとして合計6632の見出しで、分類器は非常によく機能した。
インドネシア語テキスト分類タスクにおける多言語BERTの使用がテストされ、さらなる拡張が可能となった。
論文 参考訳(メタデータ) (2021-02-02T14:13:02Z) - Hooks in the Headline: Learning to Generate Headlines with Controlled
Styles [69.30101340243375]
我々は,見出しを3つのスタイルで強化する新しいタスク,Styllistic Headline Generation (SHG)を提案する。
TitleStylistは、要約と再構築タスクをマルチタスクフレームワークに組み合わせることで、スタイル固有の見出しを生成する。
我々のモデルが生成したアトラクションスコアは、最先端の要約モデルの9.68%を超え、人間による参照よりも優れています。
論文 参考訳(メタデータ) (2020-04-04T17:24:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。