論文の概要: Can images help recognize entities? A study of the role of images for
Multimodal NER
- arxiv url: http://arxiv.org/abs/2010.12712v2
- Date: Sun, 19 Sep 2021 22:56:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 23:01:33.499045
- Title: Can images help recognize entities? A study of the role of images for
Multimodal NER
- Title(参考訳): 画像はエンティティを認識するのに役立つか?
マルチモーダルNERにおける画像の役割に関する研究
- Authors: Shuguang Chen, Gustavo Aguilar, Leonardo Neves, Thamar Solorio
- Abstract要約: マルチモーダルな名前付きエンティティ認識(MNER)は、言語理解と視覚的コンテキストのギャップを埋める必要がある。
MNERタスクにイメージを組み込むために多くのマルチモーダルニューラルネットワークが提案されているが、マルチモーダル相互作用を利用するモデルの能力はいまだに理解されていない。
- 参考スコア(独自算出の注目度): 20.574849371747685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal named entity recognition (MNER) requires to bridge the gap between
language understanding and visual context. While many multimodal neural
techniques have been proposed to incorporate images into the MNER task, the
model's ability to leverage multimodal interactions remains poorly understood.
In this work, we conduct in-depth analyses of existing multimodal fusion
techniques from different perspectives and describe the scenarios where adding
information from the image does not always boost performance. We also study the
use of captions as a way to enrich the context for MNER. Experiments on three
datasets from popular social platforms expose the bottleneck of existing
multimodal models and the situations where using captions is beneficial.
- Abstract(参考訳): マルチモーダルなエンティティ認識(MNER)は、言語理解と視覚的コンテキストのギャップを埋める必要がある。
mnerタスクにイメージを組み込むために多くのマルチモーダルニューラル技術が提案されているが、マルチモーダルインタラクションを活用できるモデルの能力はいまだによく分かっていない。
本研究では,異なる視点から既存のマルチモーダル融合技術の詳細解析を行い,画像から情報を追加することで必ずしも性能が向上しないシナリオを説明する。
また、MNERの文脈を充実させる手段として、キャプションの使用についても検討する。
人気のあるソーシャルプラットフォームからの3つのデータセットに関する実験は、既存のマルチモーダルモデルのボトルネックとキャプションを使用する状況を公開している。
関連論文リスト
- TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。
39,153の画像、キャプション、102,437の質問が含まれている。
本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文 参考訳(メタデータ) (2024-06-10T18:52:37Z) - DeepSpeed-VisualChat: Multi-Round Multi-Image Interleave Chat via
Multi-Modal Causal Attention [55.2825684201129]
DeepSpeed-VisualChatは、マルチモーダル機能を組み込むことで、LLM(Large Language Models)を最適化するように設計されている。
筆者らのフレームワークは,(1)マルチラウンド・マルチイメージ対話のオープンソースサポート,(2)革新的なマルチモーダル因果注意機構の導入,(3)既存のデータセットにデータブレンディング技術を活用してシームレスな対話を実現すること,などが特徴である。
論文 参考訳(メタデータ) (2023-09-25T17:53:29Z) - Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z) - RpBERT: A Text-image Relation Propagation-based BERT Model for
Multimodal NER [4.510210055307459]
マルチモーダルなエンティティ認識(MNER)は、ツイート中のNERの精度を向上させるために画像を利用している。
マルチモーダルBERTモデルにテキスト-画像関係の伝搬法を導入する。
MNERデータセットをトレーニングするためのマルチタスクアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-05T02:45:30Z) - A Novel Graph-based Multi-modal Fusion Encoder for Neural Machine
Translation [131.33610549540043]
NMTのための新しいグラフベースのマルチモーダル核融合エンコーダを提案する。
まず、統合マルチモーダルグラフを用いて、入力文と画像を表す。
次に、複数のグラフベースのマルチモーダル融合層を積み重ねて、ノード表現を学習するためのセマンティックな相互作用を反復的に実行する。
論文 参考訳(メタデータ) (2020-07-17T04:06:09Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。