論文の概要: RpBERT: A Text-image Relation Propagation-based BERT Model for
Multimodal NER
- arxiv url: http://arxiv.org/abs/2102.02967v1
- Date: Fri, 5 Feb 2021 02:45:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-08 21:25:17.673234
- Title: RpBERT: A Text-image Relation Propagation-based BERT Model for
Multimodal NER
- Title(参考訳): RpBERT:マルチモーダルNERのためのテキスト画像相関伝播に基づくBERTモデル
- Authors: Lin Sun, Jiquan Wang, Kai Zhang, Yindu Su, and Fangsheng Weng
- Abstract要約: マルチモーダルなエンティティ認識(MNER)は、ツイート中のNERの精度を向上させるために画像を利用している。
マルチモーダルBERTモデルにテキスト-画像関係の伝搬法を導入する。
MNERデータセットをトレーニングするためのマルチタスクアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 4.510210055307459
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recently multimodal named entity recognition (MNER) has utilized images to
improve the accuracy of NER in tweets. However, most of the multimodal methods
use attention mechanisms to extract visual clues regardless of whether the text
and image are relevant. Practically, the irrelevant text-image pairs account
for a large proportion in tweets. The visual clues that are unrelated to the
texts will exert uncertain or even negative effects on multimodal model
learning. In this paper, we introduce a method of text-image relation
propagation into the multimodal BERT model. We integrate soft or hard gates to
select visual clues and propose a multitask algorithm to train on the MNER
datasets. In the experiments, we deeply analyze the changes in visual attention
before and after the use of text-image relation propagation. Our model achieves
state-of-the-art performance on the MNER datasets.
- Abstract(参考訳): 近年,マルチモーダルなエンティティ認識(MNER)により,ツイート中のNERの精度が向上している。
しかし、ほとんどのマルチモーダル手法は、テキストや画像が関連しているかどうかに関わらず、注意機構を用いて視覚的手がかりを抽出する。
実際、無関係なテキストイメージペアは、ツイートのかなりの割合を占めている。
テキストとは無関係な視覚的な手がかりは、マルチモーダルモデル学習に不確実あるいはマイナスの影響をもたらす。
本稿では,マルチモーダルBERTモデルへのテキスト画像関係伝播の手法を提案する。
ソフトゲートまたはハードゲートを統合して視覚的な手がかりを選択し、MNERデータセットをトレーニングするマルチタスクアルゴリズムを提案します。
実験では,テキストと画像の関係伝播の前後における視覚的注意の変化を深く分析した。
本モデルは,MNERデータセット上での最先端性能を実現する。
関連論文リスト
- ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。
ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。
これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文 参考訳(メタデータ) (2024-08-19T15:27:25Z) - TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。
39,153の画像、キャプション、102,437の質問が含まれている。
本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文 参考訳(メタデータ) (2024-06-10T18:52:37Z) - Learning Comprehensive Representations with Richer Self for
Text-to-Image Person Re-Identification [34.289949134802086]
TIReID(Text-to-image person re-identification)は、クエリテキストに基づいて同一人物の歩行者画像を取得する。
既存のTIReIDの手法では、通常は1対1の画像テキストマッチングの問題として扱われ、ビュー内の画像テキストペア間の関係にのみ焦点をあてる。
我々はLCR$2$Sと呼ばれるフレームワークを提案し、新しい視点から両方のモダリティの表現を学習することで同一のアイデンティティの多対多対応をモデル化する。
論文 参考訳(メタデータ) (2023-10-17T12:39:16Z) - Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z) - Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。
新たなマルチモーダル検索フレームワーク(MoRe)を提案する。
MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文 参考訳(メタデータ) (2022-12-03T13:11:32Z) - ITA: Image-Text Alignments for Multi-Modal Named Entity Recognition [38.08486689940946]
MNER(Multi-modal Named Entity Recognition)は多くの注目を集めている。
画像やテキスト表現などのインタラクションを,それぞれのモダリティのデータに基づいて個別に訓練することは困難である。
本稿では,画像特徴をテキスト空間に整列させるため,bf Image-bf text bf Alignments (ITA)を提案する。
論文 参考訳(メタデータ) (2021-12-13T08:29:43Z) - FiLMing Multimodal Sarcasm Detection with Attention [0.7340017786387767]
サルカスムの検出は、意図された意味がその表面的な意味によって示されるものと異なる自然言語表現を特定する。
本稿では,入力テキストと画像属性のコンテキスト不整合を組み込むために,RoBERTaモデルとコアテンション層を用いた新しいアーキテクチャを提案する。
提案手法は,Twitterのマルチモーダル検出データセットの6.14%のF1スコアにおいて,既存の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-09T06:33:29Z) - Can images help recognize entities? A study of the role of images for
Multimodal NER [20.574849371747685]
マルチモーダルな名前付きエンティティ認識(MNER)は、言語理解と視覚的コンテキストのギャップを埋める必要がある。
MNERタスクにイメージを組み込むために多くのマルチモーダルニューラルネットワークが提案されているが、マルチモーダル相互作用を利用するモデルの能力はいまだに理解されていない。
論文 参考訳(メタデータ) (2020-10-23T23:41:51Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z) - A Novel Graph-based Multi-modal Fusion Encoder for Neural Machine
Translation [131.33610549540043]
NMTのための新しいグラフベースのマルチモーダル核融合エンコーダを提案する。
まず、統合マルチモーダルグラフを用いて、入力文と画像を表す。
次に、複数のグラフベースのマルチモーダル融合層を積み重ねて、ノード表現を学習するためのセマンティックな相互作用を反復的に実行する。
論文 参考訳(メタデータ) (2020-07-17T04:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。