論文の概要: CMNER: A Chinese Multimodal NER Dataset based on Social Media
- arxiv url: http://arxiv.org/abs/2402.13693v2
- Date: Fri, 1 Mar 2024 07:12:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-04 13:39:42.204487
- Title: CMNER: A Chinese Multimodal NER Dataset based on Social Media
- Title(参考訳): CMNER: ソーシャルメディアに基づく中国のマルチモーダルNERデータセット
- Authors: Yuanze Ji, Bobo Li, Jun Zhou, Fei Li, Chong Teng, Donghong Ji
- Abstract要約: Weiboから得られたデータを利用して、中国のマルチモーダルNERデータセット(CMNER)をコンパイルする。
データセットには、5000のWeiboポストと18,326の対応画像が組み合わされている。
公開英語MNERデータセット(Twitter2015)の言語間実験を行った。
- 参考スコア(独自算出の注目度): 32.43175604843548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Named Entity Recognition (MNER) is a pivotal task designed to
extract named entities from text with the support of pertinent images.
Nonetheless, a notable paucity of data for Chinese MNER has considerably
impeded the progress of this natural language processing task within the
Chinese domain. Consequently, in this study, we compile a Chinese Multimodal
NER dataset (CMNER) utilizing data sourced from Weibo, China's largest social
media platform. Our dataset encompasses 5,000 Weibo posts paired with 18,326
corresponding images. The entities are classified into four distinct
categories: person, location, organization, and miscellaneous. We perform
baseline experiments on CMNER, and the outcomes underscore the effectiveness of
incorporating images for NER. Furthermore, we conduct cross-lingual experiments
on the publicly available English MNER dataset (Twitter2015), and the results
substantiate our hypothesis that Chinese and English multimodal NER data can
mutually enhance the performance of the NER model.
- Abstract(参考訳): マルチモーダル名前付きエンティティ認識(multimodal named entity recognition, mner)は、テキストから名前付きエンティティを抽出するための重要なタスクである。
それでも、中国のMNERのデータ量は、この自然言語処理タスクの中国藩内での進歩を著しく妨げている。
そこで本研究では,中国最大のソーシャルメディアプラットフォームであるWeiboから得られたデータを利用して,中国のマルチモーダルNERデータセット(CMNER)をコンパイルする。
データセットは、5000のWeiboポストと18,326の対応画像からなる。
エンティティは、人、場所、組織、雑種という4つの異なるカテゴリに分類される。
我々は,CMNERのベースライン実験を行い,NERのイメージを組み込むことの有効性を実証した。
さらに,公開可能な英語MNERデータセット(Twitter2015)の言語間実験を行い,その結果,中国語と英語のマルチモーダルNERデータがNERモデルの性能を相互に向上できるという仮説を裏付けた。
関連論文リスト
- 3AM: An Ambiguity-Aware Multi-Modal Machine Translation Dataset [90.95948101052073]
英語と中国語で26,000のパラレル文対からなる曖昧性を考慮したMMTデータセットである3AMを導入する。
我々のデータセットは、他のMTデータセットよりもあいまいで、キャプションと画像の両方が多種多様であるように設計されています。
実験の結果,我々のデータセットでトレーニングしたMTモデルは,他のMTデータセットでトレーニングしたMTモデルよりも視覚情報を活用する能力が高いことがわかった。
論文 参考訳(メタデータ) (2024-04-29T04:01:30Z) - 2M-NER: Contrastive Learning for Multilingual and Multimodal NER with Language and Modal Fusion [9.038363543966263]
我々は、4つの言語(英語、フランス語、ドイツ語、スペイン語)と2つのモーダル性(テキストと画像)を持つ大規模MMNERデータセットを構築した。
2M-NERと呼ばれる新しいモデルを導入し、コントラスト学習を用いてテキストと画像の表現を整列させ、マルチモーダル協調モジュールを統合する。
比較ベースラインや代表ベースラインと比較して,多言語および多モーダルNERタスクにおいてF1スコアが最も高い。
論文 参考訳(メタデータ) (2024-04-26T02:34:31Z) - Named Entity Recognition via Machine Reading Comprehension: A Multi-Task
Learning Approach [50.12455129619845]
Named Entity Recognition (NER) は、テキスト内のエンティティの参照を事前に定義された型に抽出し、分類することを目的としている。
我々は,MRCベースのNERを改善するために,エンティティタイプ間のラベル依存性をマルチタスク学習フレームワークに組み込むことを提案する。
論文 参考訳(メタデータ) (2023-09-20T03:15:05Z) - MultiCoNER: A Large-scale Multilingual dataset for Complex Named Entity
Recognition [15.805414696789796]
我々は、11言語にわたる3つのドメイン(ウィキ文、質問、検索クエリ)をカバーする、名前付きエンティティ認識のための大規模な多言語データセットであるMultiCoNERを提案する。
このデータセットは、低コンテキストシナリオを含む、NERの現代的課題を表現するように設計されている。
論文 参考訳(メタデータ) (2022-08-30T20:45:54Z) - Mono vs Multilingual BERT: A Case Study in Hindi and Marathi Named
Entity Recognition [0.7874708385247353]
我々は、ヒンディー語やマラタイ語のような低リソースのインドの言語について、NERについて検討する。
BERTのさまざまなバリエーションであるbase-BERT、RoBERTa、AlBERTについて検討し、公開されているHindiおよびMarathi NERデータセットでそれらをベンチマークする。
モノリンガルのMahaRoBERTaモデルがMarathi NERに最適であるのに対し,マルチリンガルのXLM-RoBERTaはHindi NERに最適であることを示す。
論文 参考訳(メタデータ) (2022-03-24T07:50:41Z) - AISHELL-NER: Named Entity Recognition from Chinese Speech [54.434118596263126]
中国語音声からのNERのための新しいデータセットAISEHLL-NERを提案する。
その結果,ASRと事前学習したNERタグを併用することにより,性能が向上できることが示唆された。
論文 参考訳(メタデータ) (2022-02-17T09:18:48Z) - An Open-Source Dataset and A Multi-Task Model for Malay Named Entity
Recognition [3.511753382329252]
マレーNERデータセット(MYNER)を28,991文(384万個以上)で構築する。
NERトレーニングを明示的かつ暗黙的に改善するために、補助的なタスクである境界検出が導入されている。
論文 参考訳(メタデータ) (2021-09-03T03:29:25Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - RpBERT: A Text-image Relation Propagation-based BERT Model for
Multimodal NER [4.510210055307459]
マルチモーダルなエンティティ認識(MNER)は、ツイート中のNERの精度を向上させるために画像を利用している。
マルチモーダルBERTモデルにテキスト-画像関係の伝搬法を導入する。
MNERデータセットをトレーニングするためのマルチタスクアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-05T02:45:30Z) - A Novel Graph-based Multi-modal Fusion Encoder for Neural Machine
Translation [131.33610549540043]
NMTのための新しいグラフベースのマルチモーダル核融合エンコーダを提案する。
まず、統合マルチモーダルグラフを用いて、入力文と画像を表す。
次に、複数のグラフベースのマルチモーダル融合層を積み重ねて、ノード表現を学習するためのセマンティックな相互作用を反復的に実行する。
論文 参考訳(メタデータ) (2020-07-17T04:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。