論文の概要: Two-stream Hierarchical Similarity Reasoning for Image-text Matching
- arxiv url: http://arxiv.org/abs/2203.05349v1
- Date: Thu, 10 Mar 2022 12:56:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-11 15:36:19.633160
- Title: Two-stream Hierarchical Similarity Reasoning for Image-text Matching
- Title(参考訳): 画像テキストマッチングのための2ストリーム階層的類似性推論
- Authors: Ran Chen, Hanli Wang, Lei Wang, Sam Kwong
- Abstract要約: 文脈情報を自動的に抽出する階層的類似性推論モジュールを提案する。
従来のアプローチでは、シングルストリームの類似性アライメントを学習することしか検討されていなかった。
イメージ・ツー・テキスト・レベルの類似性計算とテキスト・ツー・テキスト・レベルの類似性計算に画像・テキストマッチングを分解する2ストリームアーキテクチャを開発した。
- 参考スコア(独自算出の注目度): 66.43071159630006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning-based approaches have demonstrated their powerful ability for the
task of image-text matching. In this work, two issues are addressed for
image-text matching. First, for reasoning processing, conventional approaches
have no ability to find and use multi-level hierarchical similarity
information. To solve this problem, a hierarchical similarity reasoning module
is proposed to automatically extract context information, which is then
co-exploited with local interaction information for efficient reasoning.
Second, previous approaches only consider learning single-stream similarity
alignment (i.e., image-to-text level or text-to-image level), which is
inadequate to fully use similarity information for image-text matching. To
address this issue, a two-stream architecture is developed to decompose
image-text matching into image-to-text level and text-to-image level similarity
computation. These two issues are investigated by a unifying framework that is
trained in an end-to-end manner, namely two-stream hierarchical similarity
reasoning network. The extensive experiments performed on the two benchmark
datasets of MSCOCO and Flickr30K show the superiority of the proposed approach
as compared to existing state-of-the-art methods.
- Abstract(参考訳): 推論に基づくアプローチは、画像テキストマッチングのタスクに強力な能力を示した。
本研究では,画像テキストマッチングにおける2つの課題について述べる。
第一に、推論処理では、従来の手法では多階層的類似情報を見つけ、利用することができない。
この問題を解決するために, 階層的類似性推論モジュールを提案し, コンテキスト情報を自動的に抽出し, 効率的な推論のために局所的インタラクション情報と共存させる。
第二に、従来のアプローチでは、画像とテキストの整合性(つまり、画像とテキストの整合性)の学習しか考慮していなかった。
この問題に対処するために、画像からテキストまでのマッチングとテキストから画像までの類似度計算に分解する2ストリームアーキテクチャを開発した。
これら2つの問題は、エンドツーエンドでトレーニングされる統一フレームワーク、すなわち2ストリーム階層的類似性推論ネットワークによって検討される。
MSCOCOとFlickr30Kのベンチマークデータセットで実施された広範な実験は、既存の最先端手法と比較して提案手法の優位性を示している。
関連論文リスト
- Composing Object Relations and Attributes for Image-Text Matching [70.47747937665987]
この研究は、シーングラフを利用して、リレーショナルエッジで相互接続されたオブジェクトや属性のノードでキャプションを表現するデュアルエンコーダ画像テキストマッチングモデルを導入する。
本モデルは,オブジェクト属性とオブジェクトオブジェクトの意味関係を効率的に符号化し,ロバストかつ高速な性能システムを実現する。
論文 参考訳(メタデータ) (2024-06-17T17:56:01Z) - Unifying Two-Stream Encoders with Transformers for Cross-Modal Retrieval [68.61855682218298]
クロスモーダル検索法では、画像とテキストの異なるアーキテクチャを持つ2ストリームエンコーダを用いる。
視覚タスクにおけるトランスフォーマーの最近の進歩に触発されて,トランスフォーマーとエンコーダアーキテクチャを両モードで統一することを提案する。
我々は、画像変換器、テキスト変換器、階層アライメントモジュールからなる2ストリーム変換器(textbfHierarchical Alignment Transformers, HAT)を純粋にベースとしたクロスモーダル検索フレームワークを設計する。
論文 参考訳(メタデータ) (2023-08-08T15:43:59Z) - Efficient Token-Guided Image-Text Retrieval with Consistent Multimodal
Contrastive Training [33.78990448307792]
画像テキスト検索は、視覚と言語間の意味的関係を理解するための中心的な問題である。
以前の作品では、全体像とテキストの粗い粒度の表現を単に学習するか、画像領域またはピクセルとテキストワードの対応を精巧に確立する。
本研究では、粗い表現学習ときめ細かい表現学習を統一した枠組みに組み合わせて、新しい視点から画像テキストの検索を行う。
論文 参考訳(メタデータ) (2023-06-15T00:19:13Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z) - Step-Wise Hierarchical Alignment Network for Image-Text Matching [29.07229472373576]
画像テキストマッチングを多段階のクロスモーダル推論プロセスに分解するステップワイズ階層アライメントネットワーク(SHAN)を提案する。
具体的には,まず,グローバル・ローカル・グローバル・グローバル・グローバル・グローバル・アライメントを文脈レベルで逐次実行し,フラグメントレベルでローカル・ローカル・アライメントを実現する。
論文 参考訳(メタデータ) (2021-06-11T17:05:56Z) - Cross-modal Image Retrieval with Deep Mutual Information Maximization [14.778158582349137]
本研究では,入力にソース画像を含むクロスモーダル画像検索と,その画像と所望の画像の修正を記述したテキストについて検討する。
本手法は, テキストモダリティと画像モダリティのモダリティギャップを狭め, 意味的には同一でない表現間の相互情報を最大化する。
論文 参考訳(メタデータ) (2021-03-10T13:08:09Z) - Consensus-Aware Visual-Semantic Embedding for Image-Text Matching [69.34076386926984]
画像テキストマッチングは、視覚と言語をブリッジする上で中心的な役割を果たす。
既存のアプローチのほとんどは、表現を学ぶためにイメージテキストインスタンスペアのみに依存しています。
コンセンサスを意識したビジュアル・セマンティック・エンベディングモデルを提案し,コンセンサス情報を組み込む。
論文 参考訳(メタデータ) (2020-07-17T10:22:57Z) - Transformer Reasoning Network for Image-Text Matching and Retrieval [14.238818604272751]
マルチモーダルな大規模情報検索作業における画像テキストマッチングの問題点を考察する。
トランスフォーマー推論ネットワーク(TERN, Transformer Reasoning Network, TERN)は, 現代の関係認識型自己認識型トランスフォーマー(Transformer)のアーキテクチャである。
TERNは2つの異なるモダリティを別々に推論し、最終的な共通抽象概念空間を強制することができる。
論文 参考訳(メタデータ) (2020-04-20T09:09:01Z) - Expressing Objects just like Words: Recurrent Visual Embedding for
Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。
本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。
我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文 参考訳(メタデータ) (2020-02-20T00:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。