論文の概要: Graph Structured Network for Image-Text Matching
- arxiv url: http://arxiv.org/abs/2004.00277v1
- Date: Wed, 1 Apr 2020 08:20:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 18:55:05.742125
- Title: Graph Structured Network for Image-Text Matching
- Title(参考訳): 画像テキストマッチングのためのグラフ構造化ネットワーク
- Authors: Chunxiao Liu, Zhendong Mao, Tianzhu Zhang, Hongtao Xie, Bin Wang,
Yongdong Zhang
- Abstract要約: 微粒化対応学習のためのグラフ構造化マッチングネットワークを提案する。
GSMNは、明示的にオブジェクト、関係、属性を構造化されたフレーズとしてモデル化する。
実験により、GSMNはベンチマークで最先端の手法より優れていることが示された。
- 参考スコア(独自算出の注目度): 127.68148793548116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-text matching has received growing interest since it bridges vision and
language. The key challenge lies in how to learn correspondence between image
and text. Existing works learn coarse correspondence based on object
co-occurrence statistics, while failing to learn fine-grained phrase
correspondence. In this paper, we present a novel Graph Structured Matching
Network (GSMN) to learn fine-grained correspondence. The GSMN explicitly models
object, relation and attribute as a structured phrase, which not only allows to
learn correspondence of object, relation and attribute separately, but also
benefits to learn fine-grained correspondence of structured phrase. This is
achieved by node-level matching and structure-level matching. The node-level
matching associates each node with its relevant nodes from another modality,
where the node can be object, relation or attribute. The associated nodes then
jointly infer fine-grained correspondence by fusing neighborhood associations
at structure-level matching. Comprehensive experiments show that GSMN
outperforms state-of-the-art methods on benchmarks, with relative Recall@1
improvements of nearly 7% and 2% on Flickr30K and MSCOCO, respectively. Code
will be released at: https://github.com/CrossmodalGroup/GSMN.
- Abstract(参考訳): 画像テキストマッチングは、視覚と言語を橋渡しし、関心が高まっている。
重要な課題は、画像とテキストの対応を学習する方法にある。
既存の作品は、オブジェクトの共起統計に基づいて粗い対応を学習する一方で、きめ細かいフレーズ対応を学習しない。
本稿では,細粒度対応を学習するための新しいグラフ構造化マッチングネットワーク(gsmn)を提案する。
gsmnは、オブジェクト、関係、属性を構造化句として明示的にモデル化し、オブジェクト、関係、属性の対応を別々に学習できるだけでなく、構造化句のきめ細かい対応を学ぶことができる。
これはノードレベルのマッチングと構造レベルのマッチングによって実現される。
ノードレベルのマッチングは、各ノードがオブジェクト、リレーション、属性となる他のモダリティから関連するノードと関連付ける。
関連ノードは、構造レベルのマッチングで近傍の関連を融合することにより、粒度の細かい対応を共同で推論する。
総合的な実験によると、GSMNはベンチマークで最先端のメソッドよりも優れており、相対的なRecall@1の改善はFlickr30KとMSCOCOでそれぞれ7%と2%に近い。
コードはhttps://github.com/crossmodalgroup/gsmnでリリースされる。
関連論文リスト
- Graph Neural Networks on Discriminative Graphs of Words [19.817473565906777]
本研究では,単語グラフニューラルネットワーク(DGoW-GNN)によるテキストの識別手法を提案する。
本稿では,GNNとシーケンスモデルを組み合わせたグラフベースのテキスト分類の新しいモデルを提案する。
提案手法を7つのベンチマークデータセットで評価し,いくつかの最先端ベースラインモデルにより性能が向上していることを確認した。
論文 参考訳(メタデータ) (2024-10-27T15:14:06Z) - Relation Rectification in Diffusion Model [64.84686527988809]
本稿では,最初に生成できない関係を正確に表現するためにモデルを洗練することを目的とした,リレーション・リクティフィケーション(Relation Rectification)と呼ばれる新しいタスクを紹介する。
異種グラフ畳み込みネットワーク(HGCN)を利用した革新的な解を提案する。
軽量HGCNは、テキストエンコーダによって生成されたテキスト埋め込みを調整し、埋め込み空間におけるテキスト関係の正確な反映を保証する。
論文 参考訳(メタデータ) (2024-03-29T15:54:36Z) - EntailE: Introducing Textual Entailment in Commonsense Knowledge Graph
Completion [54.12709176438264]
Commonsense knowledge graph(CSKG)は、名前付きエンティティ、短いフレーズ、イベントをノードとして表現するために自由形式のテキストを使用する。
現在の手法では意味的類似性を利用してグラフ密度を増大させるが、ノードとその関係のセマンティックな妥当性は未探索である。
そこで本研究では,CSKGノード間の暗黙的な包絡関係を見つけるために,テキストエンテーメントを導入し,同じ概念クラス内のサブグラフ接続ノードを効果的に密度化することを提案する。
論文 参考訳(メタデータ) (2024-02-15T02:27:23Z) - Pretraining Language Models with Text-Attributed Heterogeneous Graphs [28.579509154284448]
テキスト分散不均質グラフ(TAHG)におけるトポロジ的および異種情報を明確に考察する言語モデル(LM)のための新しい事前学習フレームワークを提案する。
本稿では、LMと補助異種グラフニューラルネットワークを協調最適化することにより、コンテキストグラフに関わるノードを予測するトポロジ対応事前学習タスクを提案する。
各種ドメインの3つのデータセット上でリンク予測とノード分類を行う。
論文 参考訳(メタデータ) (2023-10-19T08:41:21Z) - ConGraT: Self-Supervised Contrastive Pretraining for Joint Graph and Text Embeddings [20.25180279903009]
テキスト分散グラフ(TAG)におけるテキストとノードの分離表現を共同学習するためのContrastive Graph-Text Pretraining(ConGraT)を提案する。
提案手法は言語モデル(LM)とグラフニューラルネットワーク(GNN)を訓練し,CLIPにインスパイアされたバッチワイドコントラスト学習目標を用いて,それらの表現を共通の潜在空間に整列させる。
実験により、ConGraTは、ノードとテキストのカテゴリ分類、リンク予測、言語モデリングなど、さまざまな下流タスクのベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-23T17:53:30Z) - PA-GM: Position-Aware Learning of Embedding Networks for Deep Graph
Matching [14.713628231555223]
本稿では,線形代入問題を高次元空間にマッピングできる新しいエンドツーエンドニューラルネットワークを提案する。
我々のモデルは、ノードの相対的な位置に対するアンカーセットを構成する。
そして、相対位置の尺度に基づいて、ターゲットノードと各アンカーノードの特徴情報を集約する。
論文 参考訳(メタデータ) (2023-01-05T06:54:21Z) - Joint Graph Learning and Matching for Semantic Feature Correspondence [69.71998282148762]
本稿では,グラフマッチングを向上するための信頼度の高いグラフ構造を探索するために,GLAMという共用電子グラフ学習とマッチングネットワークを提案する。
提案手法は,3つの人気ビジュアルマッチングベンチマーク (Pascal VOC, Willow Object, SPair-71k) で評価される。
すべてのベンチマークにおいて、従来の最先端のグラフマッチング手法よりも大きなマージンを達成している。
論文 参考訳(メタデータ) (2021-09-01T08:24:02Z) - Iterative Context-Aware Graph Inference for Visual Dialog [126.016187323249]
本稿では,新しいコンテキスト認識グラフ(CAG)ニューラルネットワークを提案する。
グラフの各ノードは、オブジェクトベース(視覚)と履歴関連(テキスト)コンテキスト表現の両方を含む、共同意味機能に対応している。
論文 参考訳(メタデータ) (2020-04-05T13:09:37Z) - Expressing Objects just like Words: Recurrent Visual Embedding for
Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。
本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。
我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文 参考訳(メタデータ) (2020-02-20T00:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。