論文の概要: HGAN: Hierarchical Graph Alignment Network for Image-Text Retrieval
- arxiv url: http://arxiv.org/abs/2212.08281v1
- Date: Fri, 16 Dec 2022 05:08:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 16:05:12.423026
- Title: HGAN: Hierarchical Graph Alignment Network for Image-Text Retrieval
- Title(参考訳): HGAN:画像テキスト検索のための階層型グラフアライメントネットワーク
- Authors: Jie Guo, Meiting Wang, Yan Zhou, Bin Song, Yuhao Chi, Wei Fan,
Jianglong Chang
- Abstract要約: 画像テキスト検索のための階層型グラフアライメントネットワーク(HGAN)を提案する。
まず、包括的マルチモーダル特徴を捉えるために、画像の特徴グラフとテキストのモダリティをそれぞれ構築する。
そして、MFAR(Multi-granularity Feature Aggregation and Rearrangement)モジュールを設計した多粒性共有空間を構築する。
最後に、最終的な画像とテキストの特徴は、階層的アライメントを達成するために、3レベル類似関数によってさらに洗練される。
- 参考スコア(独自算出の注目度): 13.061063817876336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-text retrieval (ITR) is a challenging task in the field of multimodal
information processing due to the semantic gap between different modalities. In
recent years, researchers have made great progress in exploring the accurate
alignment between image and text. However, existing works mainly focus on the
fine-grained alignment between image regions and sentence fragments, which
ignores the guiding significance of context background information. Actually,
integrating the local fine-grained information and global context background
information can provide more semantic clues for retrieval. In this paper, we
propose a novel Hierarchical Graph Alignment Network (HGAN) for image-text
retrieval. First, to capture the comprehensive multimodal features, we
construct the feature graphs for the image and text modality respectively.
Then, a multi-granularity shared space is established with a designed
Multi-granularity Feature Aggregation and Rearrangement (MFAR) module, which
enhances the semantic corresponding relations between the local and global
information, and obtains more accurate feature representations for the image
and text modalities. Finally, the ultimate image and text features are further
refined through three-level similarity functions to achieve the hierarchical
alignment. To justify the proposed model, we perform extensive experiments on
MS-COCO and Flickr30K datasets. Experimental results show that the proposed
HGAN outperforms the state-of-the-art methods on both datasets, which
demonstrates the effectiveness and superiority of our model.
- Abstract(参考訳): 画像テキスト検索(itr)は、異なるモダリティ間の意味的ギャップのため、マルチモーダル情報処理の分野では難しい課題である。
近年,画像とテキストの正確なアライメントを探索する研究が進んでいる。
しかし,既存の研究は主に,背景情報の意味を無視する画像領域と文断片の微妙なアライメントに焦点を当てている。
実際に、ローカルなきめ細かい情報とグローバルコンテキストの背景情報を統合することで、よりセマンティックな検索の手がかりを得ることができる。
本稿では,画像テキスト検索のための階層型グラフアライメントネットワーク(HGAN)を提案する。
まず、総合的なマルチモーダル特徴を捉えるために、画像とテキストのモーダリティのための特徴グラフを構築する。
そして、局所情報とグローバル情報とのセマンティック対応性を高め、画像とテキストのモダリティのより正確な特徴表現を得るMFAR(Multi-granularity Feature Aggregation and Rearrangement)モジュールを設計した多粒性共有空間を構築する。
最後に、究極のイメージとテキストの特徴を3段階の類似度関数によってさらに洗練し、階層的アライメントを実現する。
提案手法を正当化するため,MS-COCOおよびFlickr30Kデータセットの広範な実験を行った。
実験の結果,提案したHGANは両データセットの最先端手法よりも優れており,モデルの有効性と優位性を示している。
関連論文リスト
- Efficient Token-Guided Image-Text Retrieval with Consistent Multimodal
Contrastive Training [33.78990448307792]
画像テキスト検索は、視覚と言語間の意味的関係を理解するための中心的な問題である。
以前の作品では、全体像とテキストの粗い粒度の表現を単に学習するか、画像領域またはピクセルとテキストワードの対応を精巧に確立する。
本研究では、粗い表現学習ときめ細かい表現学習を統一した枠組みに組み合わせて、新しい視点から画像テキストの検索を行う。
論文 参考訳(メタデータ) (2023-06-15T00:19:13Z) - Scene Graph Based Fusion Network For Image-Text Retrieval [2.962083552798791]
画像テキスト検索における重要な課題は、画像とテキストの正確な対応を学習する方法である。
そこで我々は,Scene GraphベースのFusion Network(SGFN)を提案する。
我々のSGFNは、非常に少数のSOTA画像テキスト検索方法よりも優れている。
論文 参考訳(メタデータ) (2023-03-20T13:22:56Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - Image-Specific Information Suppression and Implicit Local Alignment for
Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。
既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。
TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文 参考訳(メタデータ) (2022-08-30T16:14:18Z) - Self-Supervised Image-to-Text and Text-to-Image Synthesis [23.587581181330123]
クロスモーダルな埋め込み空間を学習するための,新たな自己教師型深層学習手法を提案する。
そこで本研究では,まず,StackGANベースのオートエンコーダモデルを用いて画像の高密度ベクトル表現と,LSTMベースのテキストオートエンコーダを用いた文レベルでの高密度ベクトル表現を得る。
論文 参考訳(メタデータ) (2021-12-09T13:54:56Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - DAE-GAN: Dynamic Aspect-aware GAN for Text-to-Image Synthesis [55.788772366325105]
本研究では,文レベル,単語レベル,アスペクトレベルを含む複数の粒度からテキスト情報を包括的に表現する動的アスペクト・アワーン(DAE-GAN)を提案する。
人間の学習行動にインスパイアされた画像改善のためのADR(Aspect-aware Dynamic Re-drawer)を開発し,AGR(Attended Global Refinement)モジュールとALR(Aspect-aware Local Refinement)モジュールを交互に使用する。
論文 参考訳(メタデータ) (2021-08-27T07:20:34Z) - Step-Wise Hierarchical Alignment Network for Image-Text Matching [29.07229472373576]
画像テキストマッチングを多段階のクロスモーダル推論プロセスに分解するステップワイズ階層アライメントネットワーク(SHAN)を提案する。
具体的には,まず,グローバル・ローカル・グローバル・グローバル・グローバル・グローバル・アライメントを文脈レベルで逐次実行し,フラグメントレベルでローカル・ローカル・アライメントを実現する。
論文 参考訳(メタデータ) (2021-06-11T17:05:56Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z) - Dense Relational Image Captioning via Multi-task Triple-Stream Networks [95.0476489266988]
視覚的な場面におけるオブジェクト間の情報に関して,キャプションを生成することを目的とした新しいタスクである。
このフレームワークは、多様性と情報の量の両方において有利であり、包括的なイメージ理解につながる。
論文 参考訳(メタデータ) (2020-10-08T09:17:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。