Fugu-MT 論文翻訳(概要): ITA: Image-Text Alignments for Multi-Modal Named Entity Recognition

論文の概要: ITA: Image-Text Alignments for Multi-Modal Named Entity Recognition

arxiv url: http://arxiv.org/abs/2112.06482v1
Date: Mon, 13 Dec 2021 08:29:43 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-14 16:20:25.081729
Title: ITA: Image-Text Alignments for Multi-Modal Named Entity Recognition
Title（参考訳）: ITA:マルチモーダル名前付きエンティティ認識のための画像テキストアライメント
Authors: Xinyu Wang, Min Gui, Yong Jiang, Zixia Jia, Nguyen Bach, Tao Wang, Zhongqiang Huang, Fei Huang, Kewei Tu
Abstract要約: MNER(Multi-modal Named Entity Recognition)は多くの注目を集めている。画像やテキスト表現などのインタラクションを,それぞれのモダリティのデータに基づいて個別に訓練することは困難である。本稿では,画像特徴をテキスト空間に整列させるため,bf Image-bf text bf Alignments (ITA)を提案する。
参考スコア（独自算出の注目度）: 38.08486689940946
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Recently, Multi-modal Named Entity Recognition (MNER) has attracted a lot of attention. Most of the work utilizes image information through region-level visual representations obtained from a pretrained object detector and relies on an attention mechanism to model the interactions between image and text representations. However, it is difficult to model such interactions as image and text representations are trained separately on the data of their respective modality and are not aligned in the same space. As text representations take the most important role in MNER, in this paper, we propose {\bf I}mage-{\bf t}ext {\bf A}lignments (ITA) to align image features into the textual space, so that the attention mechanism in transformer-based pretrained textual embeddings can be better utilized. ITA first locally and globally aligns regional object tags and image-level captions as visual contexts, concatenates them with the input texts as a new cross-modal input, and then feeds it into a pretrained textual embedding model. This makes it easier for the attention module of a pretrained textual embedding model to model the interaction between the two modalities since they are both represented in the textual space. ITA further aligns the output distributions predicted from the cross-modal input and textual input views so that the MNER model can be more practical and robust to noises from images. In our experiments, we show that ITA models can achieve state-of-the-art accuracy on multi-modal Named Entity Recognition datasets, even without image information.
Abstract（参考訳）: 近年,MNER (Multi-modal Named Entity Recognition) が注目されている。研究の大部分は、事前訓練された物体検出器から得られた領域レベルの視覚的表現を通じて画像情報を利用し、画像とテキスト間の相互作用をモデル化するための注意機構に依存している。しかし、画像やテキストの表現のような相互作用を、それぞれのモダリティのデータに基づいて別々に訓練し、同じ空間に整列させることは困難である。テキスト表現はmnerにおいて最も重要な役割を果たすため,本論文では,画像特徴をテキスト空間に整列させるため,トランスフォーマライズによるテキスト埋め込みにおける注意機構をより活用するために,画像特徴をテキスト空間に整列する {\bf i}mage-{\bf t}ext {\bf a}lignments (ita) を提案する。 ITAは、まずローカルかつグローバルに、地域オブジェクトタグと画像レベルのキャプションを視覚的コンテキストとして調整し、入力テキストを新しいクロスモーダル入力として結合し、事前訓練されたテキスト埋め込みモデルに入力する。これにより、事前学習されたテキスト埋め込みモデルのアテンションモジュールは、どちらもテキスト空間で表現されるため、2つのモダリティ間の相互作用をモデル化することが容易になる。 ITAはさらに、クロスモーダル入力およびテキスト入力ビューから予測される出力分布を、MNERモデルが画像からのノイズに対してより実用的で堅牢になるように整列する。本実験では, itaモデルが画像情報なしでも, マルチモーダル名前付きエンティティ認識データセットにおいて最先端の精度を実現できることを示す。

関連論文リスト

The Narrow Gate: Localized Image-Text Communication in Vision-Language Models [36.33608889682152]
本研究では,視覚言語モデルが画像理解タスクをどのように扱うかを検討する。マルチモーダルな出力を持つモデルでは、画像とテキストの埋め込みは残留ストリーム内でより分離される。対照的に、画像生成とテキスト生成のために訓練されたモデルは、視覚情報の狭いゲートとして機能する単一のトークンに依存する傾向がある。
論文参考訳（メタデータ） (2024-12-09T16:39:40Z)
Debiasing Vison-Language Models with Text-Only Training [15.069736314663352]
視覚バイアスを軽減するために,テキスト・アズ・イメージ・トレーニング・パラダイムを活用するTODというテキスト・オン・デバイアス・フレームワークを提案する。そこで本研究では,テキスト・アズ・イメージ・トレーニングのパラダイムを活用し,視覚バイアスを緩和するテキスト・オン・デバイアス化フレームワークTODを提案する。
論文参考訳（メタデータ） (2024-10-12T04:34:46Z)
ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。 ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文参考訳（メタデータ） (2024-08-19T15:27:25Z)
Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [11.798006331912056]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文参考訳（メタデータ） (2023-07-18T08:23:46Z)
Cross-Modal Implicit Relation Reasoning and Aligning for Text-to-Image Person Retrieval [29.884153827619915]
IRRA:クロスモーダルImplicit Relation Reasoning and Aligning frameworkを提案する。ローカルなビジュアルテキストトークン間の関係を学習し、グローバルな画像テキストマッチングを強化する。提案手法は,3つの公開データセットすべてに対して,最先端の新たな結果を実現する。
論文参考訳（メタデータ） (2023-03-22T12:11:59Z)
Improving Cross-modal Alignment for Text-Guided Image Inpainting [36.1319565907582]
テキスト誘導画像塗装(TGII)は、損傷した画像中の与えられたテキストに基づいて、行方不明領域を復元することを目的としている。クロスモーダルアライメントを改善することで,TGIIの新たなモデルを提案する。我々のモデルは、他の強力な競合相手と比較して最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-01-26T19:18:27Z)
Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。 GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文参考訳（メタデータ） (2022-11-14T11:41:44Z)
Image-Specific Information Suppression and Implicit Local Alignment for Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。 TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文参考訳（メタデータ） (2022-08-30T16:14:18Z)
Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文参考訳（メタデータ） (2022-08-04T07:51:48Z)
On Advances in Text Generation from Images Beyond Captioning: A Case Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文参考訳（メタデータ） (2022-05-24T00:52:40Z)
Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文参考訳（メタデータ） (2021-02-23T07:20:12Z)
RpBERT: A Text-image Relation Propagation-based BERT Model for Multimodal NER [4.510210055307459]
マルチモーダルなエンティティ認識(MNER)は、ツイート中のNERの精度を向上させるために画像を利用している。マルチモーダルBERTモデルにテキスト-画像関係の伝搬法を導入する。 MNERデータセットをトレーニングするためのマルチタスクアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-02-05T02:45:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。