論文の概要: BanglaMM-Disaster: A Multimodal Transformer-Based Deep Learning Framework for Multiclass Disaster Classification in Bangla
- arxiv url: http://arxiv.org/abs/2511.21364v1
- Date: Wed, 26 Nov 2025 13:11:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.10401
- Title: BanglaMM-Disaster: A Multimodal Transformer-Based Deep Learning Framework for Multiclass Disaster Classification in Bangla
- Title(参考訳): BanglaMM-Disaster:バングラにおける多段階災害分類のためのマルチモーダルトランスフォーマーに基づくディープラーニングフレームワーク
- Authors: Ariful Islam, Md Rifat Hossen, Md. Mahmudul Arif, Abdullah Al Noman, Md Arifur Rahman,
- Abstract要約: 本稿では,バングラの災害分類のためのエンド・ツー・エンドのディープラーニングに基づくマルチモーダルフレームワークであるBanglaMM-Disasterを紹介する。
我々は,9つの災害関連カテゴリの1つに注釈付けされたキャプションと対応する画像からなる,5,037個のバングラソーシャルメディアポストのデータセットを構築した。
提案モデルは、BanglaBERT、mBERT、XLM-RoBERTaなどのトランスフォーマーベースのテキストエンコーダと、ResNet50、DenseNet169、MobileNetV2などのCNNバックボーンを統合する。
- 参考スコア(独自算出の注目度): 0.7919969809015935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural disasters remain a major challenge for Bangladesh, so real-time monitoring and quick response systems are essential. In this study, we present BanglaMM-Disaster, an end-to-end deep learning-based multimodal framework for disaster classification in Bangla, using both textual and visual data from social media. We constructed a new dataset of 5,037 Bangla social media posts, each consisting of a caption and a corresponding image, annotated into one of nine disaster-related categories. The proposed model integrates transformer-based text encoders, including BanglaBERT, mBERT, and XLM-RoBERTa, with CNN backbones such as ResNet50, DenseNet169, and MobileNetV2, to process the two modalities. Using early fusion, the best model achieves 83.76% accuracy. This surpasses the best text-only baseline by 3.84% and the image-only baseline by 16.91%. Our analysis also shows reduced misclassification across all classes, with noticeable improvements for ambiguous examples. This work fills a key gap in Bangla multimodal disaster analysis and demonstrates the benefits of combining multiple data types for real-time disaster response in low-resource settings.
- Abstract(参考訳): 自然災害はバングラデシュにとって依然として大きな課題であり、リアルタイム監視と迅速な対応システムが不可欠である。
本研究では,Banglaにおける災害分類のためのエンド・ツー・エンドのディープラーニングベースのマルチモーダルフレームワークであるBanglaMM-Disasterについて,ソーシャルメディアのテキストデータとビジュアルデータを用いて紹介する。
我々は,9つの災害関連カテゴリの1つにアノテートしたキャプションと対応する画像からなる,5,037個のバングラソーシャルメディアポストのデータセットを構築した。
提案モデルは、BanglaBERT、mBERT、XLM-RoBERTaなどのトランスフォーマーベースのテキストエンコーダと、ResNet50、DenseNet169、MobileNetV2などのCNNバックボーンを統合して、2つのモードを処理する。
初期の融合により、最良のモデルは83.76%の精度が得られる。
これはテキストのみのベースラインが3.84%、画像のみのベースラインが16.91%を超えている。
分析の結果、すべてのクラスで誤分類が減少し、あいまいな例では顕著な改善が見られた。
この研究は、Banglaマルチモーダル災害解析における重要なギャップを埋め、低リソース環境におけるリアルタイム災害応答に複数のデータ型を組み合わせる利点を実証する。
関連論文リスト
- BOISHOMMO: Holistic Approach for Bangla Hate Speech [0.0]
包括的なデータセットは、Banglaのような制約のあるリソース言語の主な問題である。
BOISHOMMOは、2000以上の注釈付き例とともに、バングラにおけるヘイトスピーチの微妙な理解を提供している。
論文 参考訳(メタデータ) (2025-04-11T10:14:40Z) - Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models [111.97026994761254]
Mixture-of-Transformer (MoT) はスパースマルチモーダルトランスアーキテクチャである。
MoTはモデルの非埋め込みパラメータをモダリティで分離する。
複数の設定とモデルスケールでMoTを評価する。
論文 参考訳(メタデータ) (2024-11-07T18:59:06Z) - Multi-Modal Parameter-Efficient Fine-tuning via Graph Neural Network [2.12696199609647]
本稿では,グラフネットワークに基づくマルチモーダルパラメータ効率の微調整手法を提案する。
提案したモデルでは,OxfordPets,Flowers102,Food101の各データセットでそれぞれ4.45%,2.92%,0.23%の改善が達成されている。
論文 参考訳(メタデータ) (2024-08-01T05:24:20Z) - CrisisMatch: Semi-Supervised Few-Shot Learning for Fine-Grained Disaster
Tweet Classification [51.58605842457186]
半教師付き, 少数ショットの学習環境下で, 微粒な災害ツイート分類モデルを提案する。
私たちのモデルであるCrisisMatchは、ラベルなしデータと大量のラベルなしデータを用いて、ツイートを関心の細かいクラスに効果的に分類する。
論文 参考訳(メタデータ) (2023-10-23T07:01:09Z) - BanglaNLP at BLP-2023 Task 1: Benchmarking different Transformer Models
for Violence Inciting Text Detection in Bengali [0.46040036610482665]
本稿では,バングラでテキスト検出を誘発する暴力行為における,この共有課題を解決するために開発したシステムについて述べる。
私たちは、従来のアプローチと最近のアプローチの両方を説明して、モデルを学習させました。
提案システムでは,テキストに脅威があるかどうかを分類する。
論文 参考訳(メタデータ) (2023-10-16T19:35:04Z) - RaP: Redundancy-aware Video-language Pre-training for Text-Video
Retrieval [61.77760317554826]
冗長性を考慮したビデオ言語事前学習を提案する。
我々は,ビデオパッチとテキストトークンの冗長性の測定を,クロスモーダルな最小相似性を計算することによって設計する。
提案手法はMSRVTT, MSVD, DiDeMo, LSMDCの4つのベンチマークデータセットを用いて評価した。
論文 参考訳(メタデータ) (2022-10-13T10:11:41Z) - Magic ELF: Image Deraining Meets Association Learning and Transformer [63.761812092934576]
本稿では,CNN と Transformer を統合化して,画像デライニングにおける学習のメリットを活用することを目的とする。
降雨除去と背景復旧を関連づける新しいマルチインプット・アテンション・モジュール (MAM) を提案する。
提案手法(ELF)は,最先端手法(MPRNet)を平均0.25dB向上させる。
論文 参考訳(メタデータ) (2022-07-21T12:50:54Z) - BD-SHS: A Benchmark Dataset for Learning to Detect Online Bangla Hate
Speech in Different Social Contexts [1.5483942282713241]
本稿では,Hate Speechをソーシャルコンテキストに含めた大規模ラベル付きデータセットを提案する。
データセットには、オンラインソーシャルネットワークサイトからクロールされた50,200件以上の攻撃的なコメントが含まれている。
実験の結果,147万コメントのみを用いてトレーニングした単語の埋め込みが一貫してHS検出のモデリングを改善することがわかった。
論文 参考訳(メタデータ) (2022-06-01T10:10:15Z) - Bangla Text Classification using Transformers [2.3475904942266697]
テキスト分類はNLPの最も初期の問題の一つである。
本研究では,Banglaテキスト分類タスクのための多言語変換モデルを微調整する。
6つのベンチマークデータセットのアート結果の状態を把握し、前回の結果を5~29%の精度で改善する。
論文 参考訳(メタデータ) (2020-11-09T14:12:07Z) - Multimodal Categorization of Crisis Events in Social Media [81.07061295887172]
本稿では,画像とテキストの両方を入力として利用するマルチモーダル融合法を提案する。
特に、弱モダリティから非形式的および誤解を招くコンポーネントをフィルタリングできるクロスアテンションモジュールを導入する。
本手法は,3つの危機関連タスクにおいて,一様アプローチと強いマルチモーダルベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2020-04-10T06:31:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。