論文の概要: Transformer-Driven Triple Fusion Framework for Enhanced Multimodal Author Intent Classification in Low-Resource Bangla
- arxiv url: http://arxiv.org/abs/2511.23287v1
- Date: Fri, 28 Nov 2025 15:44:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.96717
- Title: Transformer-Driven Triple Fusion Framework for Enhanced Multimodal Author Intent Classification in Low-Resource Bangla
- Title(参考訳): 低出力バングラにおけるマルチモーダルインテント分類のためのトランスフォーマー駆動トリプル融合フレームワーク
- Authors: Ariful Islam, Tanvir Mahmud, Md Rifat Hossen,
- Abstract要約: 著者意図の理解はソーシャルメディアのコンテンツを解釈する上で重要な役割を担っている。
本稿では,Banglaのソーシャルメディア投稿における著者意図の分類について,テキストデータとビジュアルデータの両方を活用して検討する。
我々は,この課題において,早期および後期の核融合を著しく上回る新しい中間核融合戦略を導入する。
- 参考スコア(独自算出の注目度): 5.518378568494161
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The expansion of the Internet and social networks has led to an explosion of user-generated content. Author intent understanding plays a crucial role in interpreting social media content. This paper addresses author intent classification in Bangla social media posts by leveraging both textual and visual data. Recognizing limitations in previous unimodal approaches, we systematically benchmark transformer-based language models (mBERT, DistilBERT, XLM-RoBERTa) and vision architectures (ViT, Swin, SwiftFormer, ResNet, DenseNet, MobileNet), utilizing the Uddessho dataset of 3,048 posts spanning six practical intent categories. We introduce a novel intermediate fusion strategy that significantly outperforms early and late fusion on this task. Experimental results show that intermediate fusion, particularly with mBERT and Swin Transformer, achieves 84.11% macro-F1 score, establishing a new state-of-the-art with an 8.4 percentage-point improvement over prior Bangla multimodal approaches. Our analysis demonstrates that integrating visual context substantially enhances intent classification. Cross-modal feature integration at intermediate levels provides optimal balance between modality-specific representation and cross-modal learning. This research establishes new benchmarks and methodological standards for Bangla and other low-resource languages. We call our proposed framework BangACMM (Bangla Author Content MultiModal).
- Abstract(参考訳): インターネットとソーシャルネットワークの拡大により、ユーザー生成コンテンツが急増した。
著者意図の理解はソーシャルメディアのコンテンツを解釈する上で重要な役割を担っている。
本稿では,Banglaのソーシャルメディア投稿における著者意図の分類について,テキストデータとビジュアルデータの両方を活用して検討する。
従来のユニモーダルアプローチの制限を認識し,変圧器ベースの言語モデル(mBERT, DistilBERT, XLM-RoBERTa)と視覚アーキテクチャ(ViT, Swin, SwiftFormer, ResNet, DenseNet, MobileNet)を体系的にベンチマークした。
我々は,この課題において,早期および後期の核融合を著しく上回る新しい中間核融合戦略を導入する。
実験の結果、特にmBERTとSwin Transformerの中間核融合は84.11%のマクロF1スコアを獲得し、バングラマルチモーダルアプローチよりも8.4ポイント改善された新しい最先端技術を確立した。
本分析により,視覚コンテキストの統合は意図の分類を大幅に向上させることが示された。
中間レベルにおけるクロスモーダルな特徴統合は、モダリティ固有の表現とクロスモーダルな学習の最適なバランスを提供する。
本研究はBanglaや他の低リソース言語のための新しいベンチマークと方法論標準を確立する。
提案するフレームワークを,Bangla Author Content MultiModal(Bangla Author Content MultiModal)と呼ぶ。
関連論文リスト
- Two Stage Context Learning with Large Language Models for Multimodal Stance Detection on Climate Change [3.563409707133756]
本稿では,階層的融合によるテキスト情報と視覚情報を統合したマルチモーダル姿勢検出フレームワークを提案する。
提案手法はまず,テキストから姿勢関連要約を検索するためにLarge Language Modelを用いており,ドメイン認識画像キャプション生成器は対象トピックのコンテキストで視覚的内容を解釈する。
気候変化関連姿勢検出のベンチマークであるMultiClimate データセットへのアプローチについて検討した。
論文 参考訳(メタデータ) (2025-09-09T10:22:10Z) - Cross-Modal Prototype Augmentation and Dual-Grained Prompt Learning for Social Media Popularity Prediction [16.452218354378452]
ソーシャルメディアの人気予測は、画像、テキスト、構造化情報の効果的な統合を必要とする複雑なタスクである。
視覚テキストアライメントを改善するために,構造強化とコントラスト学習のための階層型プロトタイプを導入する。
本稿では,2段階の突発学習とモーダル間注意機構を統合した機能強化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-22T07:16:47Z) - HyperFusion: Hierarchical Multimodal Ensemble Learning for Social Media Popularity Prediction [16.78634288864967]
ソーシャルメディアの人気予測は、コンテンツ最適化、マーケティング戦略、デジタルプラットフォーム全体のユーザエンゲージメント向上において重要な役割を果たす。
本稿では,ソーシャルメディアの人気予測のための階層型マルチモーダルアンサンブル学習フレームワークHyperFusionを提案する。
論文 参考訳(メタデータ) (2025-07-01T16:31:50Z) - MMaDA: Multimodal Large Diffusion Language Models [61.13527224215318]
マルチモーダル拡散基礎モデルの新たなクラスであるMMaDAを紹介する。
テキスト推論、マルチモーダル理解、テキスト・ツー・イメージ生成など、さまざまな領域で優れたパフォーマンスを実現するように設計されている。
論文 参考訳(メタデータ) (2025-05-21T17:59:05Z) - TriMod Fusion for Multimodal Named Entity Recognition in Social Media [0.0]
本稿では, テキスト, ビジュアル, ハッシュタグ機能(TriMod)を統合した新しい手法を提案する。
我々は,既存の最先端手法よりもアプローチの優位性を実証し,精度,リコール,F1スコアの大幅な向上を実現した。
論文 参考訳(メタデータ) (2025-01-14T17:29:41Z) - OpenING: A Comprehensive Benchmark for Judging Open-ended Interleaved Image-Text Generation [59.53678957969471]
MLLM(Multimodal Large Language Models)は視覚的理解と生成に大きく貢献している。
インターリーブされた画像テキストコンテンツを生成することは、依然として課題である。
Openingは56の現実世界のタスクにわたる5,400の高品質なヒューマンアノテートインスタンスからなるベンチマークである。
IntJudgeはオープンなマルチモーダル生成手法を評価するための判断モデルである。
論文 参考訳(メタデータ) (2024-11-27T16:39:04Z) - Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
テキストラベルと潜在的に利用可能な2次元画像モダリティを利用したマルチモーダルFS-PCS構成を提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダル(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - Uddessho: An Extensive Benchmark Dataset for Multimodal Author Intent Classification in Low-Resource Bangla Language [0.0]
本稿では,バングラ語における意図分類の革新的アプローチを紹介し,ソーシャルメディアの投稿に注目した。
提案手法は,著者識別に特に重点を置いたマルチモーダルデータを利用する。
我々の知る限り、これはマルチモーダルベースの著者意図分類に関する最初の研究であり、低リソースのバングラ語ソーシャルメディア投稿のためのものである。
論文 参考訳(メタデータ) (2024-09-14T18:37:27Z) - Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization [49.08348604716746]
Multimodal Summarization with Multimodal Output (MSMO) は、テキストと関連する画像の両方を統合するマルチモーダル要約を作成することを目的としている。
本稿では,Entity-Guided Multimodal Summarization Model (EGMS)を提案する。
我々のモデルは,BART上に構築され,共有重み付きデュアルマルチモーダルエンコーダを用いて,テキスト画像とエンティティ画像情報を並列に処理する。
論文 参考訳(メタデータ) (2024-08-06T12:45:56Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。