論文の概要: A Unified BERT-CNN-BiLSTM Framework for Simultaneous Headline Classification and Sentiment Analysis of Bangla News
- arxiv url: http://arxiv.org/abs/2511.18618v1
- Date: Sun, 23 Nov 2025 21:22:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.931639
- Title: A Unified BERT-CNN-BiLSTM Framework for Simultaneous Headline Classification and Sentiment Analysis of Bangla News
- Title(参考訳): 統合BERT-CNN-BiLSTMフレームワークによるバングラニュースの見出し分類と感性分析
- Authors: Mirza Raquib, Munazer Montasir Akash, Tawhid Ahmed, Saydul Akbar Murad, Farida Siddiqi Prity, Mohammad Amzad Hossain, Asif Pervez Polok, Nick Rahimi,
- Abstract要約: 本研究は,感情分析と合わせて,Banglaニュースの見出し分類に最先端のアプローチを提案する。
我々は9014ニュース見出しのBAN-ABSAというデータセットを探索した。
提案したBERT-CNN-BiLSTMは,分類タスクにおけるベースラインモデル全体の性能を著しく向上させる。
- 参考スコア(独自算出の注目度): 1.8737506366172099
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In our daily lives, newspapers are an essential information source that impacts how the public talks about present-day issues. However, effectively navigating the vast amount of news content from different newspapers and online news portals can be challenging. Newspaper headlines with sentiment analysis tell us what the news is about (e.g., politics, sports) and how the news makes us feel (positive, negative, neutral). This helps us quickly understand the emotional tone of the news. This research presents a state-of-the-art approach to Bangla news headline classification combined with sentiment analysis applying Natural Language Processing (NLP) techniques, particularly the hybrid transfer learning model BERT-CNN-BiLSTM. We have explored a dataset called BAN-ABSA of 9014 news headlines, which is the first time that has been experimented with simultaneously in the headline and sentiment categorization in Bengali newspapers. Over this imbalanced dataset, we applied two experimental strategies: technique-1, where undersampling and oversampling are applied before splitting, and technique-2, where undersampling and oversampling are applied after splitting on the In technique-1 oversampling provided the strongest performance, both headline and sentiment, that is 78.57\% and 73.43\% respectively, while technique-2 delivered the highest result when trained directly on the original imbalanced dataset, both headline and sentiment, that is 81.37\% and 64.46\% respectively. The proposed model BERT-CNN-BiLSTM significantly outperforms all baseline models in classification tasks, and achieves new state-of-the-art results for Bangla news headline classification and sentiment analysis. These results demonstrate the importance of leveraging both the headline and sentiment datasets, and provide a strong baseline for Bangla text classification in low-resource.
- Abstract(参考訳): われわれの日常生活では、新聞は現在の問題に関する一般大衆の話し方に影響を与える重要な情報ソースである。
しかし、様々な新聞やオンラインニュースポータルから大量のニュースコンテンツを効果的にナビゲートすることは困難である。
感情分析のある新聞の見出しには、ニュースがどんなものなのか(例えば、政治、スポーツ)、そしてニュースがどのように私たちを(肯定的、否定的、中立的に)感じさせるのかが書かれている。
これは、ニュースの感情的なトーンを素早く理解するのに役立ちます。
本研究では,NLP(Natural Language Processing)技術,特にハイブリッドトランスファー学習モデルBERT-CNN-BiLSTMを用いた感情分析と合わせて,Banglaニュースの見出し分類に最先端のアプローチを提案する。
我々は、ベンガルの新聞の見出しと感情分類で同時に実験された9014ニュース見出しのBAN-ABSAというデータセットを探索した。
分割前にアンダーサンプリングとオーバサンプリングを適用したTechnology-1, 分割後にアンダーサンプリングとオーバサンプリングを施したTechnology-2, それぞれ78.57\%と73.43\%と、それぞれ81.37\%と64.46\%の2つの実験方法を適用した。
提案モデルであるBERT-CNN-BiLSTMは、分類タスクにおけるベースラインモデル全体の性能を著しく向上させ、バングラニュースの見出し分類と感情分析のための新たな最先端結果を得る。
これらの結果は、見出しと感情データセットの両方を活用することの重要性を示し、低リソースにおけるBanglaテキスト分類の強力なベースラインを提供する。
関連論文リスト
- Binary classification for perceived quality of headlines and links on worldwide news websites, 2018-2024 [41.94295877935867]
オンラインニュースの普及により、認識される低品質ニュースの見出し/リンクが広く公開される可能性がある。
我々は、全世界のニュースサイトリンク/ヘッダーで57,544,214件のバランスの取れたデータセットを用いて、12の機械学習モデルを評価した。
論文 参考訳(メタデータ) (2025-06-11T04:05:57Z) - Prompt-and-Align: Prompt-Based Social Alignment for Few-Shot Fake News
Detection [50.07850264495737]
プロンプト・アンド・アライン(Prompt-and-Align、P&A)は、数発のフェイクニュース検出のための新しいプロンプトベースのパラダイムである。
我々はP&Aが、数発のフェイクニュース検出性能をかなりのマージンで新たな最先端に設定していることを示す。
論文 参考訳(メタデータ) (2023-09-28T13:19:43Z) - Tackling Fake News in Bengali: Unraveling the Impact of Summarization vs. Augmentation on Pre-trained Language Models [0.07696728525672149]
ベンガル語で偽ニュースを分類するための4つの異なるアプローチからなる方法論を提案する。
弊社のアプローチは、英語ニュース記事の翻訳や、偽ニュース記事の欠陥を抑えるための強化技術の利用を含む。
ベンガル語偽ニュース検出における要約と拡張の有効性を示す。
論文 参考訳(メタデータ) (2023-07-13T14:50:55Z) - Nothing Stands Alone: Relational Fake News Detection with Hypergraph
Neural Networks [49.29141811578359]
本稿では,ニュース間のグループ間相互作用を表現するためにハイパーグラフを活用することを提案する。
提案手法は,ラベル付きニュースデータの小さなサブセットであっても,優れた性能を示し,高い性能を維持する。
論文 参考訳(メタデータ) (2022-12-24T00:19:32Z) - Multiverse: Multilingual Evidence for Fake News Detection [71.51905606492376]
Multiverseは、偽ニュースの検出に使用できる多言語エビデンスに基づく新機能である。
偽ニュース検出機能としての言語間証拠の使用仮説を確認した。
論文 参考訳(メタデータ) (2022-11-25T18:24:17Z) - UrduFake@FIRE2020: Shared Track on Fake News Identification in Urdu [62.6928395368204]
本稿では、ウルドゥー語における偽ニュース検出に関するFIRE 2020における最初の共有タスクの概要について述べる。
目標は、900の注釈付きニュース記事と400のニュース記事からなるデータセットを使って偽ニュースを特定することである。
データセットには、 (i) Health、 (ii) Sports、 (iii) Showbiz、 (iv) Technology、 (v) Businessの5つのドメインのニュースが含まれている。
論文 参考訳(メタデータ) (2022-07-25T03:46:51Z) - Overview of the Shared Task on Fake News Detection in Urdu at FIRE 2020 [62.6928395368204]
タスクはバイナリ分類タスクとして設定され、ゴールはリアルニュースとフェイクニュースを区別することである。
トレーニング用に900の注釈付きニュース記事とテスト用に400のニュース記事のデータセットを作成した。
6カ国(インド、中国、エジプト、ドイツ、パキスタン、イギリス)の42チームが登録された。
論文 参考訳(メタデータ) (2022-07-25T03:41:32Z) - Faking Fake News for Real Fake News Detection: Propaganda-loaded
Training Data Generation [105.20743048379387]
提案手法は,人間によるプロパガンダのスタイルや戦略から情報を得た学習例を生成するための新しいフレームワークである。
具体的には、生成した記事の有効性を確保するために、自然言語推論によって導かれる自己臨界シーケンストレーニングを行う。
実験の結果、PropaNewsでトレーニングされた偽ニュース検知器は、2つの公開データセットで3.62~7.69%のF1スコアで人書きの偽情報を検出するのに優れていることがわかった。
論文 参考訳(メタデータ) (2022-03-10T14:24:19Z) - Cost-Sensitive BERT for Generalisable Sentence Classification with
Imbalanced Data [5.08128537391027]
トレーニングデータとテストデータが十分に異なる場合,BERTは十分に一般化しないことを示す。
本稿では,データセット間の類似度を統計的に測定し,コスト重み付けをBERTに組み込むことにより,この問題に対処する方法を示す。
文レベルのプロパガンダ分類における2番目に高いスコアを得る。
論文 参考訳(メタデータ) (2020-03-16T19:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。