論文の概要: Boosting Entity-aware Image Captioning with Multi-modal Knowledge Graph
- arxiv url: http://arxiv.org/abs/2107.11970v1
- Date: Mon, 26 Jul 2021 05:50:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-27 16:04:10.839724
- Title: Boosting Entity-aware Image Captioning with Multi-modal Knowledge Graph
- Title(参考訳): マルチモーダル知識グラフによるエンティティ対応画像キャプションの強化
- Authors: Wentian Zhao, Yao Hu, Heda Wang, Xinxiao Wu, Jiebo Luo
- Abstract要約: 名前付きエンティティの長期分布により、名前付きエンティティと視覚的キューの関係を学習することは困難である。
本稿では、視覚オブジェクトと名前付きエンティティを関連付けるために、マルチモーダルな知識グラフを構築する新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 96.95815946327079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Entity-aware image captioning aims to describe named entities and events
related to the image by utilizing the background knowledge in the associated
article. This task remains challenging as it is difficult to learn the
association between named entities and visual cues due to the long-tail
distribution of named entities. Furthermore, the complexity of the article
brings difficulty in extracting fine-grained relationships between entities to
generate informative event descriptions about the image. To tackle these
challenges, we propose a novel approach that constructs a multi-modal knowledge
graph to associate the visual objects with named entities and capture the
relationship between entities simultaneously with the help of external
knowledge collected from the web. Specifically, we build a text sub-graph by
extracting named entities and their relationships from the article, and build
an image sub-graph by detecting the objects in the image. To connect these two
sub-graphs, we propose a cross-modal entity matching module trained using a
knowledge base that contains Wikipedia entries and the corresponding images.
Finally, the multi-modal knowledge graph is integrated into the captioning
model via a graph attention mechanism. Extensive experiments on both GoodNews
and NYTimes800k datasets demonstrate the effectiveness of our method.
- Abstract(参考訳): エンティティ認識画像キャプションは、関連記事の背景知識を利用して、画像に関連する名前付きエンティティとイベントを記述することを目的としている。
この課題は、名前付きエンティティの長期分布のため、名前付きエンティティと視覚的キューの関係を学習することが難しいため、依然として困難である。
さらに、記事の複雑さは、エンティティ間のきめ細かい関係を抽出し、画像に関する情報的なイベント記述を生成するのに困難をもたらす。
これらの課題に対処するために,視覚オブジェクトを名前付きエンティティに関連付け,Webから収集した外部知識の助けを借りてエンティティ間の関係を同時に捉える,マルチモーダルな知識グラフを構築する手法を提案する。
具体的には、名前付きエンティティとその関連を記事から抽出してテキストサブグラフを構築し、画像中のオブジェクトを検出して画像サブグラフを構築する。
これら2つのサブグラフを接続するために,wikipediaエントリと対応する画像を含む知識ベースを用いてトレーニングしたクロスモーダルエンティティマッチングモジュールを提案する。
最後に、マルチモーダル知識グラフをグラフ注目機構を介してキャプションモデルに統合する。
GoodNewsとNYTimes800kのデータセットの大規模な実験は、我々の方法の有効性を実証している。
関連論文リスト
- ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。
ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。
これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文 参考訳(メタデータ) (2024-08-19T15:27:25Z) - Composing Object Relations and Attributes for Image-Text Matching [70.47747937665987]
この研究は、シーングラフを利用して、リレーショナルエッジで相互接続されたオブジェクトや属性のノードでキャプションを表現するデュアルエンコーダ画像テキストマッチングモデルを導入する。
本モデルは,オブジェクト属性とオブジェクトオブジェクトの意味関係を効率的に符号化し,ロバストかつ高速な性能システムを実現する。
論文 参考訳(メタデータ) (2024-06-17T17:56:01Z) - Few-Shot Relation Extraction with Hybrid Visual Evidence [3.154631846975021]
MFS-HVE(Multi-modal few-shot relation extract model)を提案する。
MFS-HVEは意味的特徴抽出器とマルチモーダル融合コンポーネントを含む。
2つの公開データセットで行った実験は、意味的な視覚情報が数発の関係予測の性能を大幅に改善することを示した。
論文 参考訳(メタデータ) (2024-03-01T18:20:11Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - Learning to Represent Image and Text with Denotation Graph [32.417311523031195]
本稿では,画像とテキスト間の暗黙的・視覚的接地表現の集合から学習表現を提案する。
得られた構造的関係を利用して,最先端のマルチモーダル学習モデルをさらに改良できることを示す。
論文 参考訳(メタデータ) (2020-10-06T18:00:58Z) - Multi-Modal Retrieval using Graph Neural Networks [1.8911962184174562]
我々は、同じ高次元空間に埋め込まれた共同ビジョンと概念を学ぶ。
視覚と概念の関係をグラフ構造としてモデル化する。
また、選択的近傍接続に基づく新しい推論時間制御も導入する。
論文 参考訳(メタデータ) (2020-10-04T19:34:20Z) - Learning semantic Image attributes using Image recognition and knowledge
graph embeddings [0.3222802562733786]
本稿では,知識グラフ埋め込みモデルと認識された画像の属性を組み合わせることで,画像の意味的属性を学習するための共有学習手法を提案する。
提案されたアプローチは、大量のデータから学習するフレームワークと、新しい知識を推論するために限定的な述語を使用するフレームワークのギャップを埋めるためのステップである。
論文 参考訳(メタデータ) (2020-09-12T15:18:48Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - Exploiting Structured Knowledge in Text via Graph-Guided Representation
Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。
エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。
既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文 参考訳(メタデータ) (2020-04-29T14:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。