論文の概要: A Deep Local and Global Scene-Graph Matching for Image-Text Retrieval
- arxiv url: http://arxiv.org/abs/2106.02400v1
- Date: Fri, 4 Jun 2021 10:33:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-07 15:12:57.253852
- Title: A Deep Local and Global Scene-Graph Matching for Image-Text Retrieval
- Title(参考訳): 画像テキスト検索のための深部局所・グローバルシーングラフマッチング
- Authors: Manh-Duy Nguyen, Binh T. Nguyen, Cathal Gurrin
- Abstract要約: シーングラフの提示は画像テキストマッチングの課題に適した方法である。
本稿では,最先端の手法を強化するローカル・グローバル・シーングラフマッチング(LGSGM)モデルを提案する。
Flickr30kデータセットのリコールを10%以上増やすことで,レベルの組み合わせによる改善により,ベースライン手法の性能を向上させることができる。
- 参考スコア(独自算出の注目度): 4.159666152160874
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Conventional approaches to image-text retrieval mainly focus on indexing
visual objects appearing in pictures but ignore the interactions between these
objects. Such objects occurrences and interactions are equivalently useful and
important in this field as they are usually mentioned in the text. Scene graph
presentation is a suitable method for the image-text matching challenge and
obtained good results due to its ability to capture the inter-relationship
information. Both images and text are represented in scene graph levels and
formulate the retrieval challenge as a scene graph matching challenge. In this
paper, we introduce the Local and Global Scene Graph Matching (LGSGM) model
that enhances the state-of-the-art method by integrating an extra graph
convolution network to capture the general information of a graph.
Specifically, for a pair of scene graphs of an image and its caption, two
separate models are used to learn the features of each graph's nodes and edges.
Then a Siamese-structure graph convolution model is employed to embed graphs
into vector forms. We finally combine the graph-level and the vector-level to
calculate the similarity of this image-text pair. The empirical experiments
show that our enhancement with the combination of levels can improve the
performance of the baseline method by increasing the recall by more than 10% on
the Flickr30k dataset.
- Abstract(参考訳): 従来の画像テキスト検索のアプローチは、主に画像に現れる視覚オブジェクトをインデックス化するが、それらのオブジェクト間のインタラクションを無視する。
このようなオブジェクトや相互作用は、通常テキストで言及されるように、この分野において同等に有用で重要である。
シーングラフの提示は,画像テキストマッチング課題に適した手法であり,相互関係情報をキャプチャする能力から良好な結果が得られる。
画像とテキストはシーングラフレベルで表現され、シーングラフマッチングチャレンジとして検索課題を定式化する。
本稿では,グラフの一般情報を取得するためにグラフ畳み込みネットワークを統合することにより,最先端の手法を強化するローカル・グローバル・シーングラフマッチング(LGSGM)モデルを提案する。
具体的には、画像とそのキャプションのシーングラフに対して、各グラフのノードとエッジの特徴を学習するために、2つの別々のモデルを使用する。
次に、シームズ構造グラフ畳み込みモデルを用いてグラフをベクトル形式に埋め込む。
最終的にグラフレベルとベクトルレベルを組み合わせて、この画像テキストペアの類似性を計算する。
実験により,Flickr30kデータセットのリコールを10%以上増やすことにより,レベルの組み合わせによる改善により,ベースライン法の性能向上が図られた。
関連論文リスト
- G-Retriever: Retrieval-Augmented Generation for Textual Graph Understanding and Question Answering [61.93058781222079]
現実のテキストグラフを対象とするフレキシブルな問合せフレームワークを開発した。
一般のテキストグラフに対する最初の検索拡張生成(RAG)手法を提案する。
G-Retrieverは、このタスクをSteiner Tree最適化問題として定式化し、グラフ上でRAGを実行する。
論文 参考訳(メタデータ) (2024-02-12T13:13:04Z) - Image Synthesis with Graph Conditioning: CLIP-Guided Diffusion Models for Scene Graphs [0.0]
シーングラフから画像を生成する新しい手法を提案する。
トレーニング済みのテキスト・ツー・イメージ拡散モデルとCLIPガイダンスを利用して、グラフ知識を画像に変換する。
実験により,本手法は標準ベンチマークにおける既存手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-01-25T11:46:31Z) - Clustering-based Image-Text Graph Matching for Domain Generalization [13.277406473107721]
ドメイン不変の視覚表現は、未確認のタスクドメインにうまく一般化できるモデルをトレーニングするために重要である。
近年の研究では、テキスト記述には高レベルなクラス識別情報が含まれていることが示されている。
画像領域と対応するテキスト記述間の局所的なアライメントの利用を提唱する。
論文 参考訳(メタデータ) (2023-10-04T10:03:07Z) - FACTUAL: A Benchmark for Faithful and Consistent Textual Scene Graph
Parsing [66.70054075041487]
画像キャプションをシーングラフに変換する既存のシーングラフは、しばしば2種類のエラーに悩まされる。
まず、生成されたシーングラフはキャプションや対応する画像の真の意味を捉えず、忠実さの欠如をもたらす。
第二に、生成されたシーングラフは一貫性が高く、同じセマンティクスは異なるアノテーションで表される。
論文 参考訳(メタデータ) (2023-05-27T15:38:31Z) - CGMN: A Contrastive Graph Matching Network for Self-Supervised Graph
Similarity Learning [65.1042892570989]
自己教師付きグラフ類似性学習のためのコントラストグラフマッチングネットワーク(CGMN)を提案する。
我々は,効率的なノード表現学習のために,クロスビューインタラクションとクロスグラフインタラクションという2つの戦略を用いる。
我々はノード表現をグラフ類似性計算のためのプール演算によりグラフレベル表現に変換する。
論文 参考訳(メタデータ) (2022-05-30T13:20:26Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z) - Learning to Generate Scene Graph from Natural Language Supervision [52.18175340725455]
シーングラフと呼ばれる画像内の局所化オブジェクトとその関係をグラフィカルに表現するために,画像と文のペアから学習する最初の方法の1つを提案する。
既製のオブジェクト検出器を利用してオブジェクトのインスタンスを識別し、ローカライズし、検出された領域のラベルとキャプションから解析された概念をマッチングし、シーングラフを学習するための"擬似ラベル"を作成する。
論文 参考訳(メタデータ) (2021-09-06T03:38:52Z) - Bridging Knowledge Graphs to Generate Scene Graphs [49.69377653925448]
本稿では,2つのグラフ間の情報伝達を反復的に行う新しいグラフベースニューラルネットワークを提案する。
我々のグラフブリッジネットワークであるGB-Netは、エッジとノードを連続的に推論し、相互接続されたシーンとコモンセンスグラフのリッチでヘテロジニアスな構造を同時に活用し、洗練する。
論文 参考訳(メタデータ) (2020-01-07T23:35:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。