論文の概要: Learning Dual Semantic Relations with Graph Attention for Image-Text
Matching
- arxiv url: http://arxiv.org/abs/2010.11550v1
- Date: Thu, 22 Oct 2020 09:21:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 07:53:54.582546
- Title: Learning Dual Semantic Relations with Graph Attention for Image-Text
Matching
- Title(参考訳): 画像テキストマッチングのためのグラフ注意による二重意味関係の学習
- Authors: Keyu Wen, Xiaodong Gu, Qingrong Cheng
- Abstract要約: 我々はDual Semantic Relations Attention Network(DSRAN)という,新しい多段階意味関係強化手法を提案する。
本手法は,2つの意味関係学習方式の有効性により,従来の手法よりも大きな差で性能を向上する。
- 参考スコア(独自算出の注目度): 13.80433764370972
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-Text Matching is one major task in cross-modal information processing.
The main challenge is to learn the unified visual and textual representations.
Previous methods that perform well on this task primarily focus on not only the
alignment between region features in images and the corresponding words in
sentences, but also the alignment between relations of regions and relational
words. However, the lack of joint learning of regional features and global
features will cause the regional features to lose contact with the global
context, leading to the mismatch with those non-object words which have global
meanings in some sentences. In this work, in order to alleviate this issue, it
is necessary to enhance the relations between regions and the relations between
regional and global concepts to obtain a more accurate visual representation so
as to be better correlated to the corresponding text. Thus, a novel multi-level
semantic relations enhancement approach named Dual Semantic Relations Attention
Network(DSRAN) is proposed which mainly consists of two modules, separate
semantic relations module and the joint semantic relations module. DSRAN
performs graph attention in both modules respectively for region-level
relations enhancement and regional-global relations enhancement at the same
time. With these two modules, different hierarchies of semantic relations are
learned simultaneously, thus promoting the image-text matching process by
providing more information for the final visual representation. Quantitative
experimental results have been performed on MS-COCO and Flickr30K and our
method outperforms previous approaches by a large margin due to the
effectiveness of the dual semantic relations learning scheme. Codes are
available at https://github.com/kywen1119/DSRAN.
- Abstract(参考訳): 画像テキストマッチングは、クロスモーダル情報処理における主要なタスクである。
主な課題は、視覚とテキストの統一表現を学ぶことである。
このタスクをうまくこなす以前の方法は、画像中の領域特徴と文中の対応する単語のアライメントだけでなく、領域と関係語の関係のアライメントにも重点を置いている。
しかし,地域的特徴とグローバルな特徴の同時学習の欠如は,地域的特徴とグローバルな文脈との接触を失わせる原因となり,世界的意味を持つ非対象語とのミスマッチが生じる。
本研究では,この問題を緩和するために,地域関係と地域概念とグローバル概念の関係を強化し,より正確な視覚的表現を得ることが求められている。
そこで,dual semantic relations attention network (dsran) と呼ばれる新しい多レベル意味関係強化手法を提案し,この手法は主に2つのモジュール,semantic relations module と joint semantic relations module から構成される。
dsranは、地域レベル関係強化と地域グローバル関係強化を同時に行うため、それぞれのモジュールでグラフ注目を行う。
これら2つのモジュールで、意味関係の異なる階層を同時に学習し、最終的な視覚的表現により多くの情報を提供することで、画像テキストマッチングプロセスを促進させる。
提案手法は,MS-COCOとFlickr30Kで定量的に評価され,2つの意味関係学習方式の有効性により,従来の手法よりも高い性能を示した。
コードはhttps://github.com/kywen1119/dsranで入手できる。
関連論文リスト
- Bridging Local Details and Global Context in Text-Attributed Graphs [62.522550655068336]
GraphBridgeは、コンテキストテキスト情報を活用することで、ローカルおよびグローバルな視点をブリッジするフレームワークである。
提案手法は最先端性能を実現し,グラフ対応トークン削減モジュールは効率を大幅に向上し,スケーラビリティの問題を解消する。
論文 参考訳(メタデータ) (2024-06-18T13:35:25Z) - Self-Supervised Representation Learning with Cross-Context Learning
between Global and Hypercolumn Features [16.73454481187041]
クロスコンテキスト学習は、モデルが2つのコンテキストの違いから学ぶことを可能にする。
線形分類とダウンストリームタスクの実験結果から,本手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-25T14:08:07Z) - Cross-Modal Implicit Relation Reasoning and Aligning for Text-to-Image
Person Retrieval [29.884153827619915]
IRRA:クロスモーダルImplicit Relation Reasoning and Aligning frameworkを提案する。
ローカルなビジュアルテキストトークン間の関係を学習し、グローバルな画像テキストマッチングを強化する。
提案手法は,3つの公開データセットすべてに対して,最先端の新たな結果を実現する。
論文 参考訳(メタデータ) (2023-03-22T12:11:59Z) - HGAN: Hierarchical Graph Alignment Network for Image-Text Retrieval [13.061063817876336]
画像テキスト検索のための階層型グラフアライメントネットワーク(HGAN)を提案する。
まず、包括的マルチモーダル特徴を捉えるために、画像の特徴グラフとテキストのモダリティをそれぞれ構築する。
そして、MFAR(Multi-granularity Feature Aggregation and Rearrangement)モジュールを設計した多粒性共有空間を構築する。
最後に、最終的な画像とテキストの特徴は、階層的アライメントを達成するために、3レベル類似関数によってさらに洗練される。
論文 参考訳(メタデータ) (2022-12-16T05:08:52Z) - Image-Specific Information Suppression and Implicit Local Alignment for
Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。
既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。
TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文 参考訳(メタデータ) (2022-08-30T16:14:18Z) - Global-and-Local Collaborative Learning for Co-Salient Object Detection [162.62642867056385]
Co-Salient Object Detection (CoSOD)の目標は、2つ以上の関連する画像を含むクエリグループに一般的に現れる有能なオブジェクトを見つけることである。
本稿では,グローバル対応モデリング(GCM)とローカル対応モデリング(LCM)を含む,グローバル・ローカル協調学習アーキテクチャを提案する。
提案したGLNetは3つの一般的なCoSODベンチマークデータセットに基づいて評価され、我々のモデルが小さなデータセット(約3k画像)でトレーニングされた場合、一部の大規模データセット(約8k-200k画像)でトレーニングされた11の最先端の競合製品(約8k-200k画像)を上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-19T14:32:41Z) - Step-Wise Hierarchical Alignment Network for Image-Text Matching [29.07229472373576]
画像テキストマッチングを多段階のクロスモーダル推論プロセスに分解するステップワイズ階層アライメントネットワーク(SHAN)を提案する。
具体的には,まず,グローバル・ローカル・グローバル・グローバル・グローバル・グローバル・アライメントを文脈レベルで逐次実行し,フラグメントレベルでローカル・ローカル・アライメントを実現する。
論文 参考訳(メタデータ) (2021-06-11T17:05:56Z) - Learning Relation Alignment for Calibrated Cross-modal Retrieval [52.760541762871505]
言語的・視覚的関係のセマンティックな距離を計測し,関係の一貫性を定量化するための新しい指標ISD(Intra-modal Self-attention Distance)を提案する。
ISDを最適化し、モダル間アライメントを介してモダル内アライメントを相互に調整するための正規化訓練法である、モダル内アライメント(IAIS)について述べる。
論文 参考訳(メタデータ) (2021-05-28T14:25:49Z) - Similarity Reasoning and Filtration for Image-Text Matching [85.68854427456249]
画像-テキストマッチングのための類似度グラフ推論と注意フィルタリングネットワークを提案する。
類似性グラフ推論(SGR)モジュールを1つのグラフ畳み込みニューラルネットワークに頼り、局所的および大域的アライメントの両方と関係性を考慮した類似性を推論する。
Flickr30K と MSCOCO のデータセット上での最先端性能を実現する上で,提案手法の優位性を示す。
論文 参考訳(メタデータ) (2021-01-05T06:29:35Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。