論文の概要: 2M-NER: Contrastive Learning for Multilingual and Multimodal NER with Language and Modal Fusion
- arxiv url: http://arxiv.org/abs/2404.17122v1
- Date: Fri, 26 Apr 2024 02:34:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-29 14:14:08.116876
- Title: 2M-NER: Contrastive Learning for Multilingual and Multimodal NER with Language and Modal Fusion
- Title(参考訳): 2M-NER:言語・モーダル融合を用いた多言語・多モーダルNERのコントラスト学習
- Authors: Dongsheng Wang, Xiaoqin Feng, Zeming Liu, Chuan Wang,
- Abstract要約: 我々は、4つの言語(英語、フランス語、ドイツ語、スペイン語)と2つのモーダル性(テキストと画像)を持つ大規模MMNERデータセットを構築した。
2M-NERと呼ばれる新しいモデルを導入し、コントラスト学習を用いてテキストと画像の表現を整列させ、マルチモーダル協調モジュールを統合する。
比較ベースラインや代表ベースラインと比較して,多言語および多モーダルNERタスクにおいてF1スコアが最も高い。
- 参考スコア(独自算出の注目度): 9.038363543966263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Named entity recognition (NER) is a fundamental task in natural language processing that involves identifying and classifying entities in sentences into pre-defined types. It plays a crucial role in various research fields, including entity linking, question answering, and online product recommendation. Recent studies have shown that incorporating multilingual and multimodal datasets can enhance the effectiveness of NER. This is due to language transfer learning and the presence of shared implicit features across different modalities. However, the lack of a dataset that combines multilingualism and multimodality has hindered research exploring the combination of these two aspects, as multimodality can help NER in multiple languages simultaneously. In this paper, we aim to address a more challenging task: multilingual and multimodal named entity recognition (MMNER), considering its potential value and influence. Specifically, we construct a large-scale MMNER dataset with four languages (English, French, German and Spanish) and two modalities (text and image). To tackle this challenging MMNER task on the dataset, we introduce a new model called 2M-NER, which aligns the text and image representations using contrastive learning and integrates a multimodal collaboration module to effectively depict the interactions between the two modalities. Extensive experimental results demonstrate that our model achieves the highest F1 score in multilingual and multimodal NER tasks compared to some comparative and representative baselines. Additionally, in a challenging analysis, we discovered that sentence-level alignment interferes a lot with NER models, indicating the higher level of difficulty in our dataset.
- Abstract(参考訳): 名前付きエンティティ認識(NER)は、自然言語処理における基本的なタスクであり、文中のエンティティを事前に定義された型に識別し分類する。
エンティティリンク、質問応答、オンライン製品レコメンデーションなど、さまざまな研究分野で重要な役割を果たしている。
近年の研究では、多言語および多モーダルデータセットを組み込むことで、NERの有効性を高めることが示されている。
これは、言語伝達学習と異なるモダリティにまたがる暗黙的特徴の存在によるものである。
しかし、多言語主義と多モーダリティを組み合わせたデータセットの欠如は、多モーダリティが複数の言語で同時にNERに役立つため、これらの2つの側面を組み合わせる研究を妨げている。
本稿では,その潜在的な価値と影響を考慮して,多言語および多モーダルな名前付きエンティティ認識(MMNER)という,より困難な課題に対処することを目的とする。
具体的には、4つの言語(英語、フランス語、ドイツ語、スペイン語)と2つのモーダル性(テキストと画像)からなる大規模MMNERデータセットを構築した。
この課題に対処するため、2M-NERと呼ばれる新しいモデルを導入し、コントラスト学習を用いてテキストと画像の表現を整列させ、マルチモーダル協調モジュールを統合して、2つのモーダル間の相互作用を効果的に表現する。
実験結果から,本モデルが多言語・多モーダルNERタスクにおいて,比較ベースラインや代表ベースラインよりも高いF1スコアを達成できることが示唆された。
さらに、難解な分析では、文レベルのアライメントがNERモデルに大きく干渉していることが分かり、データセットの難易度が高いことがわかりました。
関連論文リスト
- FonMTL: Towards Multitask Learning for the Fon Language [1.9370453715137865]
本稿では,Fon言語のための自然言語処理におけるモデル機能向上のための,マルチタスク学習のための最初の爆発的アプローチを提案する。
我々は2つの言語モデルヘッドをエンコーダとして利用して入力の共有表現を構築し,各タスクに対して線形層ブロックを用いて分類する。
Fon の NER および POS タスクの結果は,複数言語で事前訓練された言語モデルに対して,単一タスクで微調整された言語モデルと比較して,競争力(あるいはより優れた)性能を示す。
論文 参考訳(メタデータ) (2023-08-28T03:26:21Z) - UniDoc: A Universal Large Multimodal Model for Simultaneous Text
Detection, Recognition, Spotting and Understanding [93.92313947913831]
テキスト検出と認識機能を備えた新しいマルチモーダルモデルUniDocを紹介する。
我々の知る限りでは、これはテキストの検出、認識、スポッティング、理解を同時に行うことができる最初の大規模マルチモーダルモデルである。
論文 参考訳(メタデータ) (2023-08-19T17:32:34Z) - MULTI3NLU++: A Multilingual, Multi-Intent, Multi-Domain Dataset for
Natural Language Understanding in Task-Oriented Dialogue [115.32009638844059]
英語のみのNLU++データセットを拡張して、手動による翻訳を高、中、低リソース言語に含めます。
Multi3NLU++はそのマルチインテント特性のため、複雑で自然なユーザ目標を表現している。
我々はMulti3NLU++を用いて、インテント検出やスロットラベリングといった自然言語理解タスクに対して、最先端の多言語モデルをベンチマークする。
論文 参考訳(メタデータ) (2022-12-20T17:34:25Z) - Multilingual Multimodal Learning with Machine Translated Text [27.7207234512674]
英語のマルチモーダルデータの機械翻訳が、容易に利用できる多言語データの欠如を抑えるための効果的なプロキシとなるかどうかを考察する。
得られたデータセットからそのような翻訳を自動的に除去する2つの指標を提案する。
In experiment on five task across 20 languages in the IGLUE benchmark, we show that translated data can provide a useful signal for multilingual multimodal learning。
論文 参考訳(メタデータ) (2022-10-24T11:41:20Z) - Multi-modal Contrastive Representation Learning for Entity Alignment [57.92705405276161]
マルチモーダルなエンティティアライメントは、2つの異なるマルチモーダルな知識グラフ間で等価なエンティティを識別することを目的としている。
マルチモーダルコントラスト学習に基づくエンティティアライメントモデルであるMCLEAを提案する。
特に、MCLEAはまず複数のモダリティから複数の個別表現を学習し、その後、モダリティ内およびモダリティ間相互作用を共同でモデル化するコントラスト学習を行う。
論文 参考訳(メタデータ) (2022-09-02T08:59:57Z) - MultiCoNER: A Large-scale Multilingual dataset for Complex Named Entity
Recognition [15.805414696789796]
我々は、11言語にわたる3つのドメイン(ウィキ文、質問、検索クエリ)をカバーする、名前付きエンティティ認識のための大規模な多言語データセットであるMultiCoNERを提案する。
このデータセットは、低コンテキストシナリオを含む、NERの現代的課題を表現するように設計されている。
論文 参考訳(メタデータ) (2022-08-30T20:45:54Z) - Unsupervised Multimodal Language Representations using Convolutional
Autoencoders [5.464072883537924]
本稿では,教師なしマルチモーダル言語表現の抽出について提案する。
単語レベルのアライメントされたマルチモーダルシーケンスを2次元行列にマップし、畳み込みオートエンコーダを用いて複数のデータセットを組み合わせることで埋め込みを学習する。
また,本手法は非常に軽量で,他のタスクに容易に一般化でき,少ない性能低下とほぼ同じ数のパラメータを持つ未確認データが得られることを示した。
論文 参考訳(メタデータ) (2021-10-06T18:28:07Z) - An Open-Source Dataset and A Multi-Task Model for Malay Named Entity
Recognition [3.511753382329252]
マレーNERデータセット(MYNER)を28,991文(384万個以上)で構築する。
NERトレーニングを明示的かつ暗黙的に改善するために、補助的なタスクである境界検出が導入されている。
論文 参考訳(メタデータ) (2021-09-03T03:29:25Z) - Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。
この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文 参考訳(メタデータ) (2021-03-24T16:20:02Z) - CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot
Cross-Lingual NLP [68.2650714613869]
我々は,mBERTを微調整するための多言語コードスイッチングデータを生成するためのデータ拡張フレームワークを提案する。
既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。
論文 参考訳(メタデータ) (2020-06-11T13:15:59Z) - M3P: Learning Universal Representations via Multitask Multilingual
Multimodal Pre-training [119.16007395162431]
M3Pは、多言語事前訓練と多言語事前訓練を組み合わせた多言語マルチモーダル事前訓練モデルである。
我々は,M3Pが英語に匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-04T03:54:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。