論文の概要: TriMod Fusion for Multimodal Named Entity Recognition in Social Media
- arxiv url: http://arxiv.org/abs/2501.08267v1
- Date: Tue, 14 Jan 2025 17:29:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:28:03.745781
- Title: TriMod Fusion for Multimodal Named Entity Recognition in Social Media
- Title(参考訳): ソーシャルメディアにおけるマルチモーダルなエンティティ認識のためのTriMod Fusion
- Authors: Mosab Alfaqeeh,
- Abstract要約: 本稿では, テキスト, ビジュアル, ハッシュタグ機能(TriMod)を統合した新しい手法を提案する。
我々は,既存の最先端手法よりもアプローチの優位性を実証し,精度,リコール,F1スコアの大幅な向上を実現した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Social media platforms serve as invaluable sources of user-generated content, offering insights into various aspects of human behavior. Named Entity Recognition (NER) plays a crucial role in analyzing such content by identifying and categorizing named entities into predefined classes. However, traditional NER models often struggle with the informal, contextually sparse, and ambiguous nature of social media language. To address these challenges, recent research has focused on multimodal approaches that leverage both textual and visual cues for enhanced entity recognition. Despite advances, existing methods face limitations in capturing nuanced mappings between visual objects and textual entities and addressing distributional disparities between modalities. In this paper, we propose a novel approach that integrates textual, visual, and hashtag features (TriMod), utilizing Transformer-attention for effective modality fusion. The improvements exhibited by our model suggest that named entities can greatly benefit from the auxiliary context provided by multiple modalities, enabling more accurate recognition. Through the experiments on a multimodal social media dataset, we demonstrate the superiority of our approach over existing state-of-the-art methods, achieving significant improvements in precision, recall, and F1 score.
- Abstract(参考訳): ソーシャルメディアプラットフォームは、ユーザー生成コンテンツの貴重な情報源として機能し、人間の行動の様々な側面に関する洞察を提供する。
名前付きエンティティ認識(NER)は、名前付きエンティティを事前に定義されたクラスに識別し分類することで、そのようなコンテンツを解析する上で重要な役割を果たす。
しかし、伝統的なNERモデルは、ソーシャルメディア言語の非公式、文脈的に疎外、曖昧な性質に苦しむことが多い。
これらの課題に対処するために、近年の研究は、テキストと視覚の両方を活用してエンティティ認識を強化するマルチモーダルアプローチに焦点を当てている。
進歩にもかかわらず、既存の手法は、視覚オブジェクトとテキストエンティティ間のニュアンスマッピングをキャプチャし、モダリティ間の分散格差に対処する際の制限に直面している。
本稿では, テキスト, ビジュアル, ハッシュタグ機能(TriMod)を統合した新しい手法を提案する。
本モデルにより得られた改良は,複数のモーダルによって提供される補助的文脈から,より正確な認識が可能となることを示唆している。
マルチモーダルなソーシャルメディアデータセットの実験を通じて、既存の最先端手法よりもアプローチの優位性を実証し、精度、リコール、F1スコアの大幅な改善を実現した。
関連論文リスト
- GAMED: Knowledge Adaptive Multi-Experts Decoupling for Multimodal Fake News Detection [18.157900272828602]
マルチモーダルフェイクニュース検出は、視覚や言語などの異種データソースをモデル化することが多い。
本稿では,マルチモーダルモデリングのための GAMED を新たに開発する。
横断的なシナジーを強化するために、モーダルデカップリングを通じて特徴的で差別的な特徴を生み出すことに焦点を当てている。
論文 参考訳(メタデータ) (2024-12-11T19:12:22Z) - Detecting Misinformation in Multimedia Content through Cross-Modal Entity Consistency: A Dual Learning Approach [10.376378437321437]
クロスモーダルなエンティティの整合性を利用して、ビデオコンテンツから誤情報を検出するためのマルチメディア誤情報検出フレームワークを提案する。
以上の結果から,MultiMDは最先端のベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-08-16T16:14:36Z) - Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization [49.08348604716746]
Multimodal Summarization with Multimodal Output (MSMO) は、テキストと関連する画像の両方を統合するマルチモーダル要約を作成することを目的としている。
本稿では,Entity-Guided Multimodal Summarization Model (EGMS)を提案する。
我々のモデルは,BART上に構築され,共有重み付きデュアルマルチモーダルエンコーダを用いて,テキスト画像とエンティティ画像情報を並列に処理する。
論文 参考訳(メタデータ) (2024-08-06T12:45:56Z) - NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Multi-modal Fake News Detection on Social Media via Multi-grained
Information Fusion [21.042970740577648]
偽ニュース検出のためのMMFN(Multi-fine Multi-modal Fusion Network)を提案する。
そこで我々は,トランスフォーマーを用いた事前学習モデルを用いて,テキストと画像からトークンレベルの特徴を符号化する。
マルチモーダルモジュールは、CLIPエンコーダでエンコードされた粗い機能を考慮して、きめ細かい機能をフューズする。
論文 参考訳(メタデータ) (2023-04-03T09:13:59Z) - Flat Multi-modal Interaction Transformer for Named Entity Recognition [1.7605709999848573]
マルチモーダルなエンティティ認識(MNER)は、画像の助けを借りたソーシャルメディア投稿におけるエンティティスパンの識別とカテゴリの認識を目的としている。
MNERのためのフラットマルチモーダル・インタラクション・トランス (FMIT) を提案する。
本研究では,視覚とテキストの微粒な意味表現を統一格子構造に変換し,トランスフォーマーの異なるモダリティに対応するために,新しい相対的位置符号化を設計する。
論文 参考訳(メタデータ) (2022-08-23T15:25:44Z) - Cross-Media Keyphrase Prediction: A Unified Framework with
Multi-Modality Multi-Head Attention and Image Wordings [63.79979145520512]
マルチメディア投稿におけるキーワード予測におけるテキストと画像の併用効果について検討する。
複雑なマルチメディアインタラクションを捉えるために,M3H-Att(Multi-Modality Multi-Head Attention)を提案する。
我々のモデルは,従来の注目ネットワークに基づいて,過去の技術状況よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-11-03T08:44:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。