論文の概要: Boosting Entity-aware Image Captioning with Multi-modal Knowledge Graph
- arxiv url: http://arxiv.org/abs/2107.11970v1
- Date: Mon, 26 Jul 2021 05:50:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-27 16:04:10.839724
- Title: Boosting Entity-aware Image Captioning with Multi-modal Knowledge Graph
- Title(参考訳): マルチモーダル知識グラフによるエンティティ対応画像キャプションの強化
- Authors: Wentian Zhao, Yao Hu, Heda Wang, Xinxiao Wu, Jiebo Luo
- Abstract要約: 名前付きエンティティの長期分布により、名前付きエンティティと視覚的キューの関係を学習することは困難である。
本稿では、視覚オブジェクトと名前付きエンティティを関連付けるために、マルチモーダルな知識グラフを構築する新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 96.95815946327079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Entity-aware image captioning aims to describe named entities and events
related to the image by utilizing the background knowledge in the associated
article. This task remains challenging as it is difficult to learn the
association between named entities and visual cues due to the long-tail
distribution of named entities. Furthermore, the complexity of the article
brings difficulty in extracting fine-grained relationships between entities to
generate informative event descriptions about the image. To tackle these
challenges, we propose a novel approach that constructs a multi-modal knowledge
graph to associate the visual objects with named entities and capture the
relationship between entities simultaneously with the help of external
knowledge collected from the web. Specifically, we build a text sub-graph by
extracting named entities and their relationships from the article, and build
an image sub-graph by detecting the objects in the image. To connect these two
sub-graphs, we propose a cross-modal entity matching module trained using a
knowledge base that contains Wikipedia entries and the corresponding images.
Finally, the multi-modal knowledge graph is integrated into the captioning
model via a graph attention mechanism. Extensive experiments on both GoodNews
and NYTimes800k datasets demonstrate the effectiveness of our method.
- Abstract(参考訳): エンティティ認識画像キャプションは、関連記事の背景知識を利用して、画像に関連する名前付きエンティティとイベントを記述することを目的としている。
この課題は、名前付きエンティティの長期分布のため、名前付きエンティティと視覚的キューの関係を学習することが難しいため、依然として困難である。
さらに、記事の複雑さは、エンティティ間のきめ細かい関係を抽出し、画像に関する情報的なイベント記述を生成するのに困難をもたらす。
これらの課題に対処するために,視覚オブジェクトを名前付きエンティティに関連付け,Webから収集した外部知識の助けを借りてエンティティ間の関係を同時に捉える,マルチモーダルな知識グラフを構築する手法を提案する。
具体的には、名前付きエンティティとその関連を記事から抽出してテキストサブグラフを構築し、画像中のオブジェクトを検出して画像サブグラフを構築する。
これら2つのサブグラフを接続するために,wikipediaエントリと対応する画像を含む知識ベースを用いてトレーニングしたクロスモーダルエンティティマッチングモジュールを提案する。
最後に、マルチモーダル知識グラフをグラフ注目機構を介してキャプションモデルに統合する。
GoodNewsとNYTimes800kのデータセットの大規模な実験は、我々の方法の有効性を実証している。
関連論文リスト
- Few-Shot Relation Extraction with Hybrid Visual Evidence [3.154631846975021]
MFS-HVE(Multi-modal few-shot relation extract model)を提案する。
MFS-HVEは意味的特徴抽出器とマルチモーダル融合コンポーネントを含む。
2つの公開データセットで行った実験は、意味的な視覚情報が数発の関係予測の性能を大幅に改善することを示した。
論文 参考訳(メタデータ) (2024-03-01T18:20:11Z) - Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。
新たなマルチモーダル検索フレームワーク(MoRe)を提案する。
MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文 参考訳(メタデータ) (2022-12-03T13:11:32Z) - One-shot Scene Graph Generation [130.57405850346836]
ワンショットシーングラフ生成タスクに対して,複数の構造化知識(関係知識知識)を提案する。
提案手法は既存の最先端手法よりも大きなマージンで優れる。
論文 参考訳(メタデータ) (2022-02-22T11:32:59Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - Learning to Represent Image and Text with Denotation Graph [32.417311523031195]
本稿では,画像とテキスト間の暗黙的・視覚的接地表現の集合から学習表現を提案する。
得られた構造的関係を利用して,最先端のマルチモーダル学習モデルをさらに改良できることを示す。
論文 参考訳(メタデータ) (2020-10-06T18:00:58Z) - Multi-Modal Retrieval using Graph Neural Networks [1.8911962184174562]
我々は、同じ高次元空間に埋め込まれた共同ビジョンと概念を学ぶ。
視覚と概念の関係をグラフ構造としてモデル化する。
また、選択的近傍接続に基づく新しい推論時間制御も導入する。
論文 参考訳(メタデータ) (2020-10-04T19:34:20Z) - Learning semantic Image attributes using Image recognition and knowledge
graph embeddings [0.3222802562733786]
本稿では,知識グラフ埋め込みモデルと認識された画像の属性を組み合わせることで,画像の意味的属性を学習するための共有学習手法を提案する。
提案されたアプローチは、大量のデータから学習するフレームワークと、新しい知識を推論するために限定的な述語を使用するフレームワークのギャップを埋めるためのステップである。
論文 参考訳(メタデータ) (2020-09-12T15:18:48Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - Exploiting Structured Knowledge in Text via Graph-Guided Representation
Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。
エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。
既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文 参考訳(メタデータ) (2020-04-29T14:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。