Fugu-MT 論文翻訳(概要): Uddessho: An Extensive Benchmark Dataset for Multimodal Author Intent Classification in Low-Resource Bangla Language

論文の概要: Uddessho: An Extensive Benchmark Dataset for Multimodal Author Intent Classification in Low-Resource Bangla Language

arxiv url: http://arxiv.org/abs/2409.09504v1
Date: Sat, 14 Sep 2024 18:37:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-17 20:27:38.577240
Title: Uddessho: An Extensive Benchmark Dataset for Multimodal Author Intent Classification in Low-Resource Bangla Language
Title（参考訳）: Uddessho: 低リソースバングラ語におけるマルチモーダルなインテント分類のためのベンチマークデータセット
Authors: Fatema Tuj Johora Faria, Mukaffi Bin Moin, Md. Mahfuzur Rahman, Md Morshed Alam Shanto, Asif Iftekher Fahim, Md. Moinul Hoque,
Abstract要約: 本稿では,バングラ語における意図分類の革新的アプローチを紹介し,ソーシャルメディアの投稿に注目した。提案手法は,著者識別に特に重点を置いたマルチモーダルデータを利用する。我々の知る限り、これはマルチモーダルベースの著者意図分類に関する最初の研究であり、低リソースのバングラ語ソーシャルメディア投稿のためのものである。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the increasing popularity of daily information sharing and acquisition on the Internet, this paper introduces an innovative approach for intent classification in Bangla language, focusing on social media posts where individuals share their thoughts and opinions. The proposed method leverages multimodal data with particular emphasis on authorship identification, aiming to understand the underlying purpose behind textual content, especially in the context of varied user-generated posts on social media. Current methods often face challenges in low-resource languages like Bangla, particularly when author traits intricately link with intent, as observed in social media posts. To address this, we present the Multimodal-based Author Bangla Intent Classification (MABIC) framework, utilizing text and images to gain deeper insights into the conveyed intentions. We have created a dataset named "Uddessho," comprising 3,048 instances sourced from social media. Our methodology comprises two approaches for classifying textual intent and multimodal author intent, incorporating early fusion and late fusion techniques. In our experiments, the unimodal approach achieved an accuracy of 64.53% in interpreting Bangla textual intent. In contrast, our multimodal approach significantly outperformed traditional unimodal methods, achieving an accuracy of 76.19%. This represents an improvement of 11.66%. To our best knowledge, this is the first research work on multimodal-based author intent classification for low-resource Bangla language social media posts.
Abstract（参考訳）: インターネット上での日次情報共有や買収の普及に伴い,個人が意見や意見を共有するソーシャルメディア投稿に焦点をあてた,バングラ語における意図分類のための革新的なアプローチを導入する。提案手法は、テキストコンテンツの背後にある基礎的な目的、特にソーシャルメディア上の様々なユーザ生成投稿のコンテキストを理解することを目的として、著者識別に特に重点を置いたマルチモーダルデータを活用する。現在の手法は、バングラ語のような低リソース言語、特にソーシャルメディアの投稿で見られるように、著者の特徴が意図と複雑に結びついている場合、しばしば課題に直面している。これを解決するために,マルチモーダルベースの著者Bangla Intent Classification (MABIC) フレームワークを提案する。ソーシャルメディアから得られた3,048のインスタンスからなるデータセット"Uddessho"を作成しました。本手法は,テキストの意図と多モーダルな著者意図を分類し,早期融合法と後期融合法を取り入れた2つの手法からなる。実験では,Banglaテキスト意図の解釈において,単調なアプローチが64.53%の精度を達成した。対照的に、我々のマルチモーダルアプローチは従来手法よりも有意に優れ、76.19%の精度を実現した。これは11.66%の改善である。我々の知る限り、これはマルチモーダルベースの著者意図分類に関する最初の研究であり、低リソースのバングラ語ソーシャルメディア投稿のためのものである。

関連論文リスト

Towards Explainable Bilingual Multimodal Misinformation Detection and Localization [64.37162720126194]
BiMiは、地域レベルのローカライゼーション、言語間および言語間整合性検出、誤情報解析のための自然言語説明を共同で行うフレームワークである。 BiMiBenchは、実際のニュース画像とサブタイトルを体系的に編集するベンチマークである。 BiMiは、分類精度が+8.9で、ローカライゼーション精度が+15.9で、BERTScoreを+2.5で上回る。
論文参考訳（メタデータ） (2025-06-28T15:43:06Z)
Contrastive Learning-based Multi Modal Architecture for Emoticon Prediction by Employing Image-Text Pairs [13.922091192207718]
本研究の目的は,文,視覚,エモティコン間の関係を分析することである。我々は,新しいコントラスト学習に基づくマルチモーダルアーキテクチャを提案する。提案モデルの精度は91%,MCCスコアは90%,エモティコンは90%であった。
論文参考訳（メタデータ） (2024-08-05T15:45:59Z)
Multi-modal Crowd Counting via a Broker Modality [64.5356816448361]
マルチモーダルな群衆カウントは、視覚画像と熱/深度画像の両方から群衆密度を推定する。本稿では,補助的ブローカーのモダリティを導入し,そのタスクを3つのモーダル学習問題とする新しい手法を提案する。我々はこのブローカーのモダリティを生成するための融合法を考案し、近代的な拡散に基づく核融合モデルの非拡散的軽量化を生かした。
論文参考訳（メタデータ） (2024-07-10T10:13:11Z)
TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。 39,153の画像、キャプション、102,437の質問が含まれている。本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文参考訳（メタデータ） (2024-06-10T18:52:37Z)
Multi-source Semantic Graph-based Multimodal Sarcasm Explanation Generation [53.97962603641629]
本稿では,mulTi-source sEmantic grAph-based Multimodal sarcasm explanation scheme, TEAMを提案する。 TEAMは、入力画像から従来のグローバルな視覚的特徴の代わりに、オブジェクトレベルのセマンティックメタデータを抽出する。 TEAMはマルチソース意味関係を包括的に特徴付けるマルチソース意味グラフを導入している。
論文参考訳（メタデータ） (2023-06-29T03:26:10Z)
Borrowing Human Senses: Comment-Aware Self-Training for Social Media Multimodal Classification [5.960550152906609]
視覚的および言語的類似性を共同で活用することで,ユーザコメントからヒントを抽出する。分類タスクは教師-学生のフレームワークにおける自己学習を通じて探索され、通常はラベル付きデータスケールに動機づけられる。その結果,提案手法は従来の最先端モデルの性能をさらに向上させることが示された。
論文参考訳（メタデータ） (2023-03-27T08:59:55Z)
Beyond Contrastive Learning: A Variational Generative Model for Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。我々のモデルは、$N$言語で並列データを操作する。本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文参考訳（メタデータ） (2022-12-21T02:41:40Z)
MIntRec: A New Dataset for Multimodal Intent Recognition [18.45381778273715]
マルチモーダルな意図認識は,実世界のマルチモーダルシーンにおいて,人間の言語を理解する上で重要な課題である。本稿では,この問題を解決するために,マルチモーダルな意図認識(MIntRec)のための新しいデータセットを提案する。テレビシリーズ『スーパーストア』から収集されたデータに基づいて、粗くきめ細かな意図を定式化する。
論文参考訳（メタデータ） (2022-09-09T15:37:39Z)
Open-Vocabulary Multi-Label Classification via Multi-modal Knowledge Transfer [55.885555581039895]
マルチラベルゼロショット学習(ML-ZSL)は、事前訓練されたテキストラベル埋め込みによる知識の伝達に焦点を当てている。マルチラベル分類のためのMKT(Multimodal Knowledge Transfer)と呼ばれる新しいオープン語彙フレームワークを提案する。
論文参考訳（メタデータ） (2022-07-05T08:32:18Z)
MCSE: Multimodal Contrastive Learning of Sentence Embeddings [23.630041603311923]
本稿では,視覚情報とテキスト情報の両方をマルチモーダル・コントラッシブ・オブジェクトを通じて活用する文埋め込み学習手法を提案する。提案手法は,各種データセットと事前学習エンコーダのパフォーマンスを継続的に向上することを示す。
論文参考訳（メタデータ） (2022-04-22T21:19:24Z)
Visual Persuasion in COVID-19 Social Media Content: A Multi-Modal Characterization [30.710295617831015]
本研究では,マルチモーダルコンテンツにおける説得情報の結果を分析するための計算手法を提案する。 Twitterでシェアされた新型コロナウイルス関連のニュース記事において、人気と信頼性の2つの側面に焦点を当てている。
論文参考訳（メタデータ） (2021-12-05T02:15:01Z)
Cross-Media Keyphrase Prediction: A Unified Framework with Multi-Modality Multi-Head Attention and Image Wordings [63.79979145520512]
マルチメディア投稿におけるキーワード予測におけるテキストと画像の併用効果について検討する。複雑なマルチメディアインタラクションを捉えるために,M3H-Att(Multi-Modality Multi-Head Attention)を提案する。我々のモデルは,従来の注目ネットワークに基づいて,過去の技術状況よりも大幅に優れていた。
論文参考訳（メタデータ） (2020-11-03T08:44:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。