Fugu-MT 論文翻訳(概要): Align before Attend: Aligning Visual and Textual Features for Multimodal Hateful Content Detection

論文の概要: Align before Attend: Aligning Visual and Textual Features for Multimodal Hateful Content Detection

arxiv url: http://arxiv.org/abs/2402.09738v1
Date: Thu, 15 Feb 2024 06:34:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-16 16:54:34.506009
Title: Align before Attend: Aligning Visual and Textual Features for Multimodal Hateful Content Detection
Title（参考訳）: 注意前アライメント:マルチモーダル・ハテフルコンテンツ検出のための視覚的特徴とテクスチャ的特徴のアライメント
Authors: Eftekhar Hossain, Omar Sharif, Mohammed Moshiul Hoque, Sarah M. Preum
Abstract要約: 本稿では,マルチモーダルヘイトフルコンテンツ検出のためのコンテキスト認識型アテンションフレームワークを提案する。 Viz.MUTE(Bengali code-mixed)とMultiOFF(英語)の2つのベンチマークヘイトフルミームデータセットに対する提案手法の評価を行った。
参考スコア（独自算出の注目度）: 4.997673761305336
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Multimodal hateful content detection is a challenging task that requires complex reasoning across visual and textual modalities. Therefore, creating a meaningful multimodal representation that effectively captures the interplay between visual and textual features through intermediate fusion is critical. Conventional fusion techniques are unable to attend to the modality-specific features effectively. Moreover, most studies exclusively concentrated on English and overlooked other low-resource languages. This paper proposes a context-aware attention framework for multimodal hateful content detection and assesses it for both English and non-English languages. The proposed approach incorporates an attention layer to meaningfully align the visual and textual features. This alignment enables selective focus on modality-specific features before fusing them. We evaluate the proposed approach on two benchmark hateful meme datasets, viz. MUTE (Bengali code-mixed) and MultiOFF (English). Evaluation results demonstrate our proposed approach's effectiveness with F1-scores of $69.7$% and $70.3$% for the MUTE and MultiOFF datasets. The scores show approximately $2.5$% and $3.2$% performance improvement over the state-of-the-art systems on these datasets. Our implementation is available at https://github.com/eftekhar-hossain/Bengali-Hateful-Memes.
Abstract（参考訳）: マルチモーダルなヘイトフルコンテンツ検出は、視覚的およびテキスト的モダリティの複雑な推論を必要とする難しいタスクである。したがって、中間融合による視覚的特徴とテキスト的特徴の相互作用を効果的に捉える意味のあるマルチモーダル表現を作成することが重要である。従来の融合技術は、モダリティ特有の特徴に効果的に対応できない。さらに、ほとんどの研究は英語に集中し、他の低リソース言語を見落としていた。本稿では,マルチモーダルなヘイトフルコンテンツ検出のための文脈対応注意フレームワークを提案し,それを英語と非英語言語の両方で評価する。提案手法は,視覚的特徴とテキスト的特徴を有意に整合させるアテンション層を含む。このアライメントは、モダリティ固有の特徴を融合する前に選択的にフォーカスすることができる。提案手法を2つのベンチマークヘイトフルミームデータセットであるvizで評価した。 MUTE (Bengali code-mixed) と MultiOFF (英語)。評価結果から,提案手法は,muteおよびmultioffデータセットに対して69.7$%と70.3$%のf1スコアの有効性を示す。スコアは、これらのデータセットの最先端システムに対して約2.5$%と3.2$%のパフォーマンス改善を示している。私たちの実装はhttps://github.com/eftekhar-hossain/Bengali-Hateful-Memesで公開しています。

関連論文リスト

Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
Multimodal Remote Sensing Scene Classification Using VLMs and Dual-Cross Attention Networks [0.8999666725996978]
本稿では,大規模な視覚言語モデル(VLM)によって生成されたテキスト記述を,高価な手作業による注釈コストを伴わずに補助的なモダリティとして統合する新しいRSSCフレームワークを提案する。 5つのRSSCデータセットの定量的および定性的な評価実験により、我々のフレームワークがベースラインモデルより一貫して優れていることが示された。
論文参考訳（メタデータ） (2024-12-03T16:24:16Z)
AMPLE: Emotion-Aware Multimodal Fusion Prompt Learning for Fake News Detection [0.1499944454332829]
本稿では,Emotion-textbfAware textbfMultimodal Fusion textbfPrompt textbfLtextbfEarning (textbfAMPLE) フレームワークについて述べる。このフレームワークは感情分析ツールを利用してテキストから感情要素を抽出する。次に、マルチヘッドクロスアテンション(MCA)機構と類似性を考慮した融合手法を用いて、マルチモーダルデータを統合する。
論文参考訳（メタデータ） (2024-10-21T02:19:24Z)
Multimodal LLM Enhanced Cross-lingual Cross-modal Retrieval [40.83470534691711]
言語間クロスモーダル検索(CCR)は、非英語クエリに基づいて視覚的に関連のあるコンテンツを検索することを目的としている。 1つの一般的なアプローチは、擬似並列データペアを作成するために機械翻訳(MT)を利用することである。視覚表現と非英語表現の整合性を改善するため,多モーダル大言語モデル(MLLM)を組み込んだ新しいソリューションLE CCRを提案する。
論文参考訳（メタデータ） (2024-09-30T05:25:51Z)
Text-Region Matching for Multi-Label Image Recognition with Missing Labels [5.095488730708477]
TRM-MLは意味のあるクロスモーダルマッチングを強化する新しい手法である。カテゴリ内およびカテゴリ間セマンティックな関係を利用して未知のラベルを推定するカテゴリプロトタイプを提案する。提案手法は最先端の手法よりも大幅に優れていた。
論文参考訳（メタデータ） (2024-07-26T05:29:24Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。 textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文参考訳（メタデータ） (2023-08-06T09:15:14Z)
Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。 MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文参考訳（メタデータ） (2023-07-19T02:11:19Z)
Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文参考訳（メタデータ） (2023-05-29T17:50:33Z)
OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。 OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文参考訳（メタデータ） (2023-05-13T11:28:37Z)
CISum: Learning Cross-modality Interaction to Enhance Multimodal Semantic Coverage for Multimodal Summarization [2.461695698601437]
本稿ではマルチタスク・クロスモーダル学習フレームワーク(CISum)を提案する。視覚的意味論を得るために,テキストの内容との相関に基づいて画像から視覚的記述へと変換する。そして、視覚的記述とテキスト内容とを融合させてテキスト要約を生成し、マルチモーダルコンテンツのセマンティクスをキャプチャする。
論文参考訳（メタデータ） (2023-02-20T11:57:23Z)
Beyond Bounding Box: Multimodal Knowledge Learning for Object Detection [3.785123406103386]
我々は、オブジェクト検出に効果的な言語指導を導入するために、言語プロンプトを利用する。本稿では,多モーダル知識学習(textbfMKL)と呼ばれる新しいメカニズムを提案する。
論文参考訳（メタデータ） (2022-05-09T07:03:30Z)
Good Visual Guidance Makes A Better Extractor: Hierarchical Visual Prefix for Multimodal Entity and Relation Extraction [88.6585431949086]
本稿では,視覚的な実体と関係抽出のための階層型ビジュアルプレフィックス融合NeTwork(HVPNeT)を提案する。視覚的表現をプラグ可能な視覚的接頭辞とみなして, 誤りに敏感な予測決定のためのテキスト的表現を導出する。 3つのベンチマークデータセットの実験により,本手法の有効性が実証され,最先端の性能が得られた。
論文参考訳（メタデータ） (2022-05-07T02:10:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。