論文の概要: Multi-Granularity Cross-Modality Representation Learning for Named
Entity Recognition on Social Media
- arxiv url: http://arxiv.org/abs/2210.14163v1
- Date: Wed, 19 Oct 2022 15:14:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 11:51:46.335836
- Title: Multi-Granularity Cross-Modality Representation Learning for Named
Entity Recognition on Social Media
- Title(参考訳): ソーシャルメディアにおける名前付きエンティティ認識のためのマルチグラニュラ性クロスモダリティ表現学習
- Authors: Peipei Liu, Gaosheng Wang, Hong Li, Jie Liu, Yimo Ren, Hongsong Zhu,
Limin Sun
- Abstract要約: ソーシャルメディア上の名前付きエンティティ認識(NER)とは、構造化されていない自由なコンテンツからエンティティを発見し分類することを指す。
本研究は,多粒性クロスモダリティ表現学習を導入する。
実験の結果,提案手法は2つのツイートのベンチマークデータセット上でSOTAあるいはSOTAの性能を近似することができることがわかった。
- 参考スコア(独自算出の注目度): 11.235498285650142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Named Entity Recognition (NER) on social media refers to discovering and
classifying entities from unstructured free-form content, and it plays an
important role for various applications such as intention understanding and
user recommendation. With social media posts tending to be multimodal,
Multimodal Named Entity Recognition (MNER) for the text with its accompanying
image is attracting more and more attention since some textual components can
only be understood in combination with visual information. However, there are
two drawbacks in existing approaches: 1) Meanings of the text and its
accompanying image do not match always, so the text information still plays a
major role. However, social media posts are usually shorter and more informal
compared with other normal contents, which easily causes incomplete semantic
description and the data sparsity problem. 2) Although the visual
representations of whole images or objects are already used, existing methods
ignore either fine-grained semantic correspondence between objects in images
and words in text or the objective fact that there are misleading objects or no
objects in some images. In this work, we solve the above two problems by
introducing the multi-granularity cross-modality representation learning. To
resolve the first problem, we enhance the representation by semantic
augmentation for each word in text. As for the second issue, we perform the
cross-modality semantic interaction between text and vision at the different
vision granularity to get the most effective multimodal guidance representation
for every word. Experiments show that our proposed approach can achieve the
SOTA or approximate SOTA performance on two benchmark datasets of tweets. The
code, data and the best performing models are available at
https://github.com/LiuPeiP-CS/IIE4MNER
- Abstract(参考訳): ソーシャルメディア上の名前付きエンティティ認識(ner)とは、非構造化フリーフォームコンテンツからエンティティを発見・分類することであり、意図理解やユーザの推薦など、さまざまなアプリケーションにおいて重要な役割を果たす。
ソーシャルメディアの投稿はマルチモーダルな傾向にあるため、画像に付随するテキストに対してMNER(Multimodal Named Entity Recognition)が注目されている。
しかし、既存のアプローチには2つの欠点がある。
1)テキストの意味とそれに伴う画像が常に一致しないため、テキスト情報は依然として重要な役割を果たす。
しかし、ソーシャルメディアの投稿は通常、他の通常のコンテンツと比較して短く、より非公式であり、不完全なセマンティック記述やデータ空間の問題を引き起こしやすい。
2) 画像全体やオブジェクトの視覚的表現はすでに使われているが,既存の手法では,画像中のオブジェクトとテキスト中の単語の微粒な意味的対応や,対象物が誤解を招くような客観的な事実を無視している。
本研究では,マルチグラニュラリティのクロスモダリティ表現学習を導入することで,上記の2つの問題を解決する。
最初の問題を解決するために,テキスト中の各単語のセマンティック拡張による表現を強化する。
第2の課題では,各単語に対して最も効果的なマルチモーダル誘導表現を得るために,異なる視点でテキストと視覚間の相互モーダルな意味的相互作用を行う。
実験の結果,提案手法は2つのツイートのベンチマークデータセット上でSOTAあるいはSOTAの性能を近似することができることがわかった。
コード、データ、最高のパフォーマンスモデルがhttps://github.com/liupeip-cs/iie4mnerで入手できる。
関連論文リスト
- A Dual-way Enhanced Framework from Text Matching Point of View for Multimodal Entity Linking [17.847936914174543]
マルチモーダルエンティティリンク(MEL)は、ウィキペディアのような知識グラフ(KG)のエンティティに曖昧な言及を多モーダル情報にリンクすることを目的としている。
我々は、各マルチモーダル情報(テキストと画像)をクエリとして扱うニューラルテキストマッチング問題として、マルチモーダルエンティティリンクを定式化する。
本稿では,MELのための双方向拡張(DWE)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:15:50Z) - Learning Comprehensive Representations with Richer Self for
Text-to-Image Person Re-Identification [34.289949134802086]
TIReID(Text-to-image person re-identification)は、クエリテキストに基づいて同一人物の歩行者画像を取得する。
既存のTIReIDの手法では、通常は1対1の画像テキストマッチングの問題として扱われ、ビュー内の画像テキストペア間の関係にのみ焦点をあてる。
我々はLCR$2$Sと呼ばれるフレームワークを提案し、新しい視点から両方のモダリティの表現を学習することで同一のアイデンティティの多対多対応をモデル化する。
論文 参考訳(メタデータ) (2023-10-17T12:39:16Z) - Improving Multimodal Classification of Social Media Posts by Leveraging
Image-Text Auxiliary Tasks [38.943074586111564]
微調整型マルチモーダルモデルにおいて,主課題と協調して2つの補助的損失を用いることの有効性について検討した。
第一に、画像テキストコントラスト(ITC)は、投稿内の画像テキスト表現間の距離を最小化するように設計されている。
第2に、画像テキストマッチング(ITM)は、画像とテキスト間の意味的関係を理解するモデルの能力を高める。
論文 参考訳(メタデータ) (2023-09-14T15:30:59Z) - Image-text Retrieval via Preserving Main Semantics of Vision [5.376441473801597]
本稿では,視覚的セマンティック・ロス (VSL) として実装された意味的最適化手法を提案する。
我々は、画像に対応する注釈付きテキストを活用して、画像の主コンテンツを取得する際のモデルを支援する。
2つのベンチマークデータセットの実験により,本手法の優れた性能が示された。
論文 参考訳(メタデータ) (2023-04-20T12:23:29Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z) - Cross-Media Keyphrase Prediction: A Unified Framework with
Multi-Modality Multi-Head Attention and Image Wordings [63.79979145520512]
マルチメディア投稿におけるキーワード予測におけるテキストと画像の併用効果について検討する。
複雑なマルチメディアインタラクションを捉えるために,M3H-Att(Multi-Modality Multi-Head Attention)を提案する。
我々のモデルは,従来の注目ネットワークに基づいて,過去の技術状況よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-11-03T08:44:18Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z) - Expressing Objects just like Words: Recurrent Visual Embedding for
Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。
本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。
我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文 参考訳(メタデータ) (2020-02-20T00:51:01Z) - A multimodal deep learning approach for named entity recognition from
social media [1.9511777443446214]
マルチモーダルディープラーニングとトランスフォーマーを用いた2つの新しいディープラーニング手法を提案する。
どちらのアプローチも、短いソーシャルメディア投稿のイメージ機能を使って、NERタスクのより良い結果を提供する。
実験結果、すなわち、精度、リコール、F1スコアは、他の最先端のNERソリューションと比較して、我々の作業の優位性を示している。
論文 参考訳(メタデータ) (2020-01-19T19:37:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。