論文の概要: BaitBuster-Bangla: A Comprehensive Dataset for Clickbait Detection in
Bangla with Multi-Feature and Multi-Modal Analysis
- arxiv url: http://arxiv.org/abs/2310.11465v1
- Date: Fri, 13 Oct 2023 13:25:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 02:10:07.346693
- Title: BaitBuster-Bangla: A Comprehensive Dataset for Clickbait Detection in
Bangla with Multi-Feature and Multi-Modal Analysis
- Title(参考訳): baitbuster-bangla:多機能マルチモーダル解析によるバングラのクリックベイト検出のための総合データセット
- Authors: Abdullah Al Imran, Md Sakib Hossain Shovon, M. F. Mridha
- Abstract要約: 本研究では,253,070個のデータポイントからなる大規模マルチモーダルなBangla YouTubeクリックベイトデータセットを提案する。
データセットには、メタデータ、一次コンテンツ、エンゲージメント統計、個々のビデオのラベルに分類される18の多様な機能が含まれている。
- 参考スコア(独自算出の注目度): 0.51795041186793
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study presents a large multi-modal Bangla YouTube clickbait dataset
consisting of 253,070 data points collected through an automated process using
the YouTube API and Python web automation frameworks. The dataset contains 18
diverse features categorized into metadata, primary content, engagement
statistics, and labels for individual videos from 58 Bangla YouTube channels. A
rigorous preprocessing step has been applied to denoise, deduplicate, and
remove bias from the features, ensuring unbiased and reliable analysis. As the
largest and most robust clickbait corpus in Bangla to date, this dataset
provides significant value for natural language processing and data science
researchers seeking to advance modeling of clickbait phenomena in low-resource
languages. Its multi-modal nature allows for comprehensive analyses of
clickbait across content, user interactions, and linguistic dimensions to
develop more sophisticated detection methods with cross-linguistic
applications.
- Abstract(参考訳): 本研究では,youtube apiとpython web automationフレームワークを用いて,自動化プロセスを通じて収集された253,070のデータポイントからなる,大規模なマルチモーダルyoutubeクリックベイトデータセットを提案する。
データセットにはメタデータ、プライマリコンテンツ、エンゲージメント統計、58のyoutubeチャンネルの個別ビデオのラベルに分類された18の多様な機能が含まれている。
厳密な事前処理ステップは、特徴からバイアスを取り除き、偏りなく信頼性の高い分析を確実にするために適用されている。
これまでバングラで最大かつ最も堅牢なクリックベイトコーパスとして、このデータセットは、低リソース言語におけるクリックベイト現象のモデリングを前進させようとする自然言語処理およびデータサイエンス研究者にとって、重要な価値を提供する。
そのマルチモーダルな性質により、コンテンツ、ユーザインタラクション、言語次元にわたるクリックベイトを包括的に分析し、クロス言語的応用によるより洗練された検出方法を開発することができる。
関連論文リスト
- BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。
BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。
BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-10-01T15:11:24Z) - Video DataFlywheel: Resolving the Impossible Data Trinity in Video-Language Understanding [61.89781979702939]
本研究では,事前学習データセットにおけるデータ量,多様性,品質の「不可能トリニティ」を定量的に明らかにする。
近年の取り組みは、合成アノテーションによって低品質で妥協された大規模で多様なASRデータセットを改良することを目指している。
我々は,ビデオアノテーションを改良されたノイズコントロール手法で反復的に洗練するVideo DataFlywheelフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-09-29T03:33:35Z) - Assessing In-context Learning and Fine-tuning for Topic Classification of German Web Data [3.2771631221674333]
トピック関連コンテンツの検出をバイナリ分類タスクとしてモデル化する。
トピックごとの注釈付きデータポイントはわずか数百で、ドイツの3つのポリシーに関連するコンテンツを検出する。
論文 参考訳(メタデータ) (2024-07-23T14:31:59Z) - ToxVidLM: A Multimodal Framework for Toxicity Detection in Code-Mixed Videos [46.148023197749396]
ToxVidLMには、マルチモーダルモジュール、クロスモーダルシンクロナイゼーションモジュール、マルチタスクモジュールという3つの重要なモジュールが含まれている。
本稿では,YouTubeから収集した931の動画と4021のコード混成ヒンディー語発話からなるベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2024-05-31T05:40:56Z) - Retrieval and Generative Approaches for a Pregnancy Chatbot in Nepali
with Stemmed and Non-Stemmed Data : A Comparative Study [0.0]
ネパール語のデータセットのパフォーマンスは、それぞれのアプローチで分析されている。
BERTをベースとした事前学習モデルでは,スクラッチトランスフォーマーモデルではスクラッチデータの性能が良好である。
論文 参考訳(メタデータ) (2023-11-12T17:16:46Z) - BanglaBait: Semi-Supervised Adversarial Approach for Clickbait Detection
on Bangla Clickbait Dataset [0.6008132390640294]
15,056個のラベル付きニュース記事と65,406個のラベル付きニュース記事を含むバングラクリックベイト検出データセットを構築した。
各記事は3人の専門言語学者によってラベル付けされ、記事のタイトル、ボディ、その他のメタデータが含まれている。
半監視世代適応ネットワーク(SS GANs)を用いて,事前学習したバングラ変圧器モデルを逆向きに微調整する。
論文 参考訳(メタデータ) (2023-11-10T17:38:46Z) - Large Language Model as Attributed Training Data Generator: A Tale of
Diversity and Bias [92.41919689753051]
大規模言語モデル(LLM)は、最近、様々な自然言語処理(NLP)タスクのためのトレーニングデータジェネレータとして活用されている。
本稿では,多様な属性を持つプロンプトを用いたトレーニングデータ生成について検討する。
属性付きプロンプトは、結果のモデルの性能の観点から、単純なクラス条件プロンプトより優れていることを示す。
論文 参考訳(メタデータ) (2023-06-28T03:31:31Z) - Less is More: ClipBERT for Video-and-Language Learning via Sparse
Sampling [98.41300980759577]
ビデオと言語の学習に対する標準的なアプローチは、オフラインで抽出された高密度ビデオ機能から学習するニューラルネットワークを規定する。
本稿では,ビデオ・言語タスクに対して,手頃なエンドツーエンド学習を可能にする汎用フレームワークClipBERTを提案する。
6つのデータセットにおけるテキスト・ビデオ検索とビデオ質問応答の実験は、ClipBERTが既存の手法より優れていることを示した。
論文 参考訳(メタデータ) (2021-02-11T18:50:16Z) - Automatic Curation of Large-Scale Datasets for Audio-Visual
Representation Learning [62.47593143542552]
本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。
本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2021-01-26T14:27:47Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。