論文の概要: A multimodal deep learning approach for named entity recognition from
social media
- arxiv url: http://arxiv.org/abs/2001.06888v3
- Date: Sun, 12 Jul 2020 12:29:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-08 10:14:07.784461
- Title: A multimodal deep learning approach for named entity recognition from
social media
- Title(参考訳): ソーシャルメディアからの名前付きエンティティ認識のためのマルチモーダル深層学習手法
- Authors: Meysam Asgari-Chenaghlu, M.Reza Feizi-Derakhshi, Leili Farzinvash, M.
A. Balafar, Cina Motamed
- Abstract要約: マルチモーダルディープラーニングとトランスフォーマーを用いた2つの新しいディープラーニング手法を提案する。
どちらのアプローチも、短いソーシャルメディア投稿のイメージ機能を使って、NERタスクのより良い結果を提供する。
実験結果、すなわち、精度、リコール、F1スコアは、他の最先端のNERソリューションと比較して、我々の作業の優位性を示している。
- 参考スコア(独自算出の注目度): 1.9511777443446214
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Named Entity Recognition (NER) from social media posts is a challenging task.
User generated content that forms the nature of social media, is noisy and
contains grammatical and linguistic errors. This noisy content makes it much
harder for tasks such as named entity recognition. We propose two novel deep
learning approaches utilizing multimodal deep learning and Transformers. Both
of our approaches use image features from short social media posts to provide
better results on the NER task. On the first approach, we extract image
features using InceptionV3 and use fusion to combine textual and image
features. This presents more reliable name entity recognition when the images
related to the entities are provided by the user. On the second approach, we
use image features combined with text and feed it into a BERT like Transformer.
The experimental results, namely, the precision, recall and F1 score metrics
show the superiority of our work compared to other state-of-the-art NER
solutions.
- Abstract(参考訳): ソーシャルメディア投稿から名付けられたエンティティ認識(NER)は難しい課題である。
ソーシャルメディアの性質を形成するユーザ生成コンテンツは騒がしく、文法的および言語的エラーを含んでいる。
このノイズの多いコンテンツは、名前付きエンティティ認識のようなタスクを難しくします。
マルチモーダルディープラーニングとトランスフォーマーを用いた2つの新しいディープラーニング手法を提案する。
どちらのアプローチも、短いソーシャルメディア投稿のイメージ機能を使って、NERタスクのより良い結果を提供する。
最初のアプローチでは、InceptionV3を用いて画像の特徴を抽出し、融合を用いてテキストと画像の特徴を組み合わせる。
これは、そのエンティティに関連する画像がユーザによって提供されたときに、より信頼性の高い名前エンティティ認識を示す。
第2のアプローチでは、画像機能とテキストを組み合わせて、bertのようなトランスフォーマーに入力します。
実験結果、すなわち、精度、リコール、F1スコアは、他の最先端のNERソリューションと比較して、我々の作業の優位性を示している。
関連論文リスト
- UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。
文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。
注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文 参考訳(メタデータ) (2024-09-06T08:02:43Z) - Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。
ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。
我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文 参考訳(メタデータ) (2024-07-26T07:30:41Z) - Revolutionizing Text-to-Image Retrieval as Autoregressive Token-to-Voken Generation [90.71613903956451]
テキスト・ツー・イメージ検索はマルチメディア処理における基本的な課題である。
本稿では,AVGという自己回帰ボウケン生成手法を提案する。
AVGは有効性と有効性の両方において優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2024-07-24T13:39:51Z) - A Generative Approach for Wikipedia-Scale Visual Entity Recognition [56.55633052479446]
与えられたクエリ画像をWikipediaにある600万の既存エンティティの1つにマッピングするタスクに対処する。
本稿では,対象エンティティを識別する「意味的・識別的コード」の自動復号化を学習する,新しい生成エンティティ認識フレームワークを紹介する。
論文 参考訳(メタデータ) (2024-03-04T13:47:30Z) - Multi-Granularity Cross-Modality Representation Learning for Named
Entity Recognition on Social Media [11.235498285650142]
ソーシャルメディア上の名前付きエンティティ認識(NER)とは、構造化されていない自由なコンテンツからエンティティを発見し分類することを指す。
本研究は,多粒性クロスモダリティ表現学習を導入する。
実験の結果,提案手法は2つのツイートのベンチマークデータセット上でSOTAあるいはSOTAの性能を近似することができることがわかった。
論文 参考訳(メタデータ) (2022-10-19T15:14:55Z) - Flat Multi-modal Interaction Transformer for Named Entity Recognition [1.7605709999848573]
マルチモーダルなエンティティ認識(MNER)は、画像の助けを借りたソーシャルメディア投稿におけるエンティティスパンの識別とカテゴリの認識を目的としている。
MNERのためのフラットマルチモーダル・インタラクション・トランス (FMIT) を提案する。
本研究では,視覚とテキストの微粒な意味表現を統一格子構造に変換し,トランスフォーマーの異なるモダリティに対応するために,新しい相対的位置符号化を設計する。
論文 参考訳(メタデータ) (2022-08-23T15:25:44Z) - Boosting Entity-aware Image Captioning with Multi-modal Knowledge Graph [96.95815946327079]
名前付きエンティティの長期分布により、名前付きエンティティと視覚的キューの関係を学習することは困難である。
本稿では、視覚オブジェクトと名前付きエンティティを関連付けるために、マルチモーダルな知識グラフを構築する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-07-26T05:50:41Z) - RpBERT: A Text-image Relation Propagation-based BERT Model for
Multimodal NER [4.510210055307459]
マルチモーダルなエンティティ認識(MNER)は、ツイート中のNERの精度を向上させるために画像を利用している。
マルチモーダルBERTモデルにテキスト-画像関係の伝搬法を導入する。
MNERデータセットをトレーニングするためのマルチタスクアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-05T02:45:30Z) - Can images help recognize entities? A study of the role of images for
Multimodal NER [20.574849371747685]
マルチモーダルな名前付きエンティティ認識(MNER)は、言語理解と視覚的コンテキストのギャップを埋める必要がある。
MNERタスクにイメージを組み込むために多くのマルチモーダルニューラルネットワークが提案されているが、マルチモーダル相互作用を利用するモデルの能力はいまだに理解されていない。
論文 参考訳(メタデータ) (2020-10-23T23:41:51Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。