Fugu-MT 論文翻訳(概要): BanglaBait: Semi-Supervised Adversarial Approach for Clickbait Detection on Bangla Clickbait Dataset

論文の概要: BanglaBait: Semi-Supervised Adversarial Approach for Clickbait Detection on Bangla Clickbait Dataset

arxiv url: http://arxiv.org/abs/2311.06204v1
Date: Fri, 10 Nov 2023 17:38:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-13 14:29:07.360089
Title: BanglaBait: Semi-Supervised Adversarial Approach for Clickbait Detection on Bangla Clickbait Dataset
Title（参考訳）: BanglaBait:Bangla Clickbaitデータセット上のClickbait検出のための半スーパーバイザーアプローチ
Authors: Md. Motahar Mahtab, Monirul Haque, Mehedi Hasan and Farig Sadeque
Abstract要約: 15,056個のラベル付きニュース記事と65,406個のラベル付きニュース記事を含むバングラクリックベイト検出データセットを構築した。各記事は3人の専門言語学者によってラベル付けされ、記事のタイトル、ボディ、その他のメタデータが含まれている。半監視世代適応ネットワーク(SS GANs)を用いて,事前学習したバングラ変圧器モデルを逆向きに微調整する。
参考スコア（独自算出の注目度）: 0.6008132390640294
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Intentionally luring readers to click on a particular content by exploiting their curiosity defines a title as clickbait. Although several studies focused on detecting clickbait titles in English articles, low resource language like Bangla has not been given adequate attention. To tackle clickbait titles in Bangla, we have constructed the first Bangla clickbait detection dataset containing 15,056 labeled news articles and 65,406 unlabelled news articles extracted from clickbait dense news sites. Each article has been labeled by three expert linguists and includes an article's title, body, and other metadata. By incorporating labeled and unlabelled data, we finetune a pretrained Bangla transformer model in an adversarial fashion using Semi Supervised Generative Adversarial Networks (SS GANs). The proposed model acts as a good baseline for this dataset, outperforming traditional neural network models (LSTM, GRU, CNN) and linguistic feature based models. We expect that this dataset and the detailed analysis and comparison of these clickbait detection models will provide a fundamental basis for future research into detecting clickbait titles in Bengali articles. We have released the corresponding code and dataset.
Abstract（参考訳）: 好奇心を利用して、読者に特定のコンテンツをクリックするよう意図的に誘惑する。英語記事におけるクリックベイトタイトルの検出に焦点を当てた研究はいくつかあるが、Banglaのような低リソース言語は十分に注目されていない。バングラデシュのclickbaitタイトルに取り組むために、私たちは15,056のラベル付きニュース記事と65,406のラベル付きニュース記事を含む最初のバングラクリックベイト検出データセットを構築しました。各記事は3人の専門言語学者によってラベル付けされ、記事のタイトル、ボディ、その他のメタデータが含まれている。ラベル付きおよび非ラベル付きデータを組み込むことにより、Semi Supervised Generative Adversarial Networks (SS GANs) を用いて、事前学習したバングラ変圧器モデルを逆向きに微調整する。提案モデルは,従来のニューラルネットワークモデル(LSTM, GRU, CNN)と言語的特徴ベースモデルを上回る,このデータセットのよいベースラインとして機能する。このデータセットとこれらのクリックベイト検出モデルの詳細な分析と比較が,ベンガル語記事におけるクリックベイトタイトルの検出に関する今後の研究の基盤となることを期待する。対応するコードとデータセットをリリースしました。

関連論文リスト

What Makes You CLIC: Detection of Croatian Clickbait Headlines [0.0]
本稿では,20年間にわたるクロアチアのニュースヘッドラインのクリックベイト検出のための新しいデータセットについて述べる。このタスクでBERTi'cモデルを微調整し、その性能をLLMベースのICL法とクロアチア語と英語のプロンプトと比較する。分析した見出しの半分近くはクリックベイトが含まれており、微調整されたモデルの方が一般的なLCMよりも良い結果をもたらすことがわかった。
論文参考訳（メタデータ） (2025-07-18T18:39:07Z)
Hey, That's My Data! Label-Only Dataset Inference in Large Language Models [63.35066172530291]
CatShiftはラベルのみのデータセット推論フレームワークである。 LLMは、新しいデータに晒されたとき、学習した知識を上書きする傾向にある。
論文参考訳（メタデータ） (2025-06-06T13:02:59Z)
Prompt-tuning for Clickbait Detection via Text Summarization [18.027598728494485]
クリックベイト(Clickbaits)は、ソーシャルな投稿や、クリック数を増やすためにユーザーを誘惑する偽ニュースの見出しだ。既存のほとんどの手法は、クリックベイトを検出するために見出しと内容のセマンティックな類似性を計算する。テキスト要約によるクリックベイト検出のプロンプトチューニング手法を提案する。
論文参考訳（メタデータ） (2024-04-17T09:39:02Z)
A diverse Multilingual News Headlines Dataset from around the World [57.37355895609648]
Babel Briefingsは、2020年8月から2021年11月までの470万のニュースの見出しを、世界中の30の言語と54の場所にわたって掲載した、新しいデータセットである。言語モデルのトレーニングや評価のための高品質なデータセットとして機能し、単純でアクセスしやすい記事のコレクションを提供する。
論文参考訳（メタデータ） (2024-03-28T12:08:39Z)
BaitBuster-Bangla: A Comprehensive Dataset for Clickbait Detection in Bangla with Multi-Feature and Multi-Modal Analysis [0.51795041186793]
本研究では,253,070個のデータポイントからなる大規模マルチモーダルなBangla YouTubeクリックベイトデータセットを提案する。データセットには、メタデータ、一次コンテンツ、エンゲージメント統計、個々のビデオのラベルに分類される18の多様な機能が含まれている。
論文参考訳（メタデータ） (2023-10-13T13:25:16Z)
A Novel Contrastive Learning Method for Clickbait Detection on RoCliCo: A Romanian Clickbait Corpus of News Articles [29.119911024232064]
ルーマニア語のクリックベイトコーパスは公開されていない。クリックベイトラベルと非クリックベイトラベルを手動で注釈付けした8,313のニュースサンプルからなるルーマニア語Clickbait Corpus(RoCliCo)を紹介した。本稿では,ニュースタイトルやコンテンツが深い距離空間にエンコードされることを学習する,BERTに基づく新しいコントラスト学習モデルを提案する。
論文参考訳（メタデータ） (2023-10-10T11:38:16Z)
An Offline Metric for the Debiasedness of Click Models [52.25681483524383]
クリックモデルは、ユーザークリックから情報を抽出する一般的な方法である。最近の研究は、コミュニティにおける現在の評価プラクティスが、良いパフォーマンスのクリックモデルが下流のタスクにうまく一般化することを保証できないことを示している。クリックモデリングにおける偏りの概念を導入し,その測定基準を導出する。
論文参考訳（メタデータ） (2023-04-19T10:59:34Z)
Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文参考訳（メタデータ） (2023-03-14T16:11:47Z)
Faking Fake News for Real Fake News Detection: Propaganda-loaded Training Data Generation [105.20743048379387]
提案手法は,人間によるプロパガンダのスタイルや戦略から情報を得た学習例を生成するための新しいフレームワークである。具体的には、生成した記事の有効性を確保するために、自然言語推論によって導かれる自己臨界シーケンストレーニングを行う。実験の結果、PropaNewsでトレーニングされた偽ニュース検知器は、2つの公開データセットで3.62～7.69%のF1スコアで人書きの偽情報を検出するのに優れていることがわかった。
論文参考訳（メタデータ） (2022-03-10T14:24:19Z)
WeClick: Weakly-Supervised Video Semantic Segmentation with Click Annotations [64.52412111417019]
WeClick と呼ばれるクリックアノテーション付きビデオセマンティックセマンティックセマンティックパイプラインを提案する。詳細なセマンティック情報はクリックによってキャプチャされないため、クリックラベルによる直接トレーニングはセグメンテーションの予測が不十分になる。 WeClickは最先端の手法より優れ、ベースラインよりも10.24%のmIoUで性能を向上し、リアルタイム実行を実現している。
論文参考訳（メタデータ） (2021-07-07T09:12:46Z)
Clickbait Headline Detection in Indonesian News Sites using Multilingual Bidirectional Encoder Representations from Transformers (M-BERT) [0.0]
埋め込み層として機能する事前学習言語モデルM−BERTを備えたニューラルネットワークと、100ノード隠蔽層とを組み合わせて、クリックベイト見出しを検出する。トレーニングデータセットとして合計6632の見出しで、分類器は非常によく機能した。インドネシア語テキスト分類タスクにおける多言語BERTの使用がテストされ、さらなる拡張が可能となった。
論文参考訳（メタデータ） (2021-02-02T14:13:02Z)
Automatic Validation of Textual Attribute Values in E-commerce Catalog by Learning with Limited Labeled Data [61.789797281676606]
そこで我々はMetaBridgeと呼ばれる新しいメタ学習潜伏変数アプローチを提案する。限られたラベル付きデータを持つカテゴリのサブセットから、転送可能な知識を学ぶことができる。ラベルのないデータで、目に見えないカテゴリの不確実性を捉えることができる。
論文参考訳（メタデータ） (2020-06-15T21:31:05Z)
Hooks in the Headline: Learning to Generate Headlines with Controlled Styles [69.30101340243375]
我々は,見出しを3つのスタイルで強化する新しいタスク,Styllistic Headline Generation (SHG)を提案する。 TitleStylistは、要約と再構築タスクをマルチタスクフレームワークに組み合わせることで、スタイル固有の見出しを生成する。我々のモデルが生成したアトラクションスコアは、最先端の要約モデルの9.68%を超え、人間による参照よりも優れています。
論文参考訳（メタデータ） (2020-04-04T17:24:47Z)
Clickbait Detection using Multiple Categorization Techniques [6.396288020763144]
本稿では,クリックベイトとノンクリックベイトを分離するためのハイブリッド分類手法を提案する。提案するハイブリッドモデルは, 個々の分類手法よりも堅牢で信頼性が高く, 効率的である。
論文参考訳（メタデータ） (2020-03-29T07:16:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。