論文の概要: Efficient Token-Guided Image-Text Retrieval with Consistent Multimodal
Contrastive Training
- arxiv url: http://arxiv.org/abs/2306.08789v1
- Date: Thu, 15 Jun 2023 00:19:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 17:02:28.583582
- Title: Efficient Token-Guided Image-Text Retrieval with Consistent Multimodal
Contrastive Training
- Title(参考訳): 整合性マルチモーダルコントラスト訓練による効率的なトーケンガイド画像検索
- Authors: Chong Liu, Yuqi Zhang, Hongsong Wang, Weihua Chen, Fan Wang, Yan
Huang, Yi-Dong Shen, and Liang Wang
- Abstract要約: 画像テキスト検索は、視覚と言語間の意味的関係を理解するための中心的な問題である。
以前の作品では、全体像とテキストの粗い粒度の表現を単に学習するか、画像領域またはピクセルとテキストワードの対応を精巧に確立する。
本研究では、粗い表現学習ときめ細かい表現学習を統一した枠組みに組み合わせて、新しい視点から画像テキストの検索を行う。
- 参考スコア(独自算出の注目度): 33.78990448307792
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image-text retrieval is a central problem for understanding the semantic
relationship between vision and language, and serves as the basis for various
visual and language tasks. Most previous works either simply learn
coarse-grained representations of the overall image and text, or elaborately
establish the correspondence between image regions or pixels and text words.
However, the close relations between coarse- and fine-grained representations
for each modality are important for image-text retrieval but almost neglected.
As a result, such previous works inevitably suffer from low retrieval accuracy
or heavy computational cost. In this work, we address image-text retrieval from
a novel perspective by combining coarse- and fine-grained representation
learning into a unified framework. This framework is consistent with human
cognition, as humans simultaneously pay attention to the entire sample and
regional elements to understand the semantic content. To this end, a
Token-Guided Dual Transformer (TGDT) architecture which consists of two
homogeneous branches for image and text modalities, respectively, is proposed
for image-text retrieval. The TGDT incorporates both coarse- and fine-grained
retrievals into a unified framework and beneficially leverages the advantages
of both retrieval approaches. A novel training objective called Consistent
Multimodal Contrastive (CMC) loss is proposed accordingly to ensure the intra-
and inter-modal semantic consistencies between images and texts in the common
embedding space. Equipped with a two-stage inference method based on the mixed
global and local cross-modal similarity, the proposed method achieves
state-of-the-art retrieval performances with extremely low inference time when
compared with representative recent approaches.
- Abstract(参考訳): 画像テキスト検索は視覚と言語間の意味的関係を理解するための中心的な問題であり、様々な視覚および言語タスクの基盤となっている。
以前のほとんどの研究は、全体像とテキストの粗い粒度の表現を単に学習するか、画像領域またはピクセルとテキストワードの対応を精巧に確立する。
しかし,各モダリティに対する粗い表現ときめ細かい表現の密接な関係は画像テキスト検索には重要であるが,ほとんど無視されている。
その結果, 検索精度の低下や計算コストの低下が必然的に生じた。
本稿では,粗粒と細粒度の表現学習を統一フレームワークに組み合わせることにより,新たな視点からの画像テキスト検索を行う。
この枠組みは、人間が同時にサンプル全体と地域的要素に注意を払って意味的内容を理解するため、人間の認知と一致している。
この目的のために、画像とテキストのモダリティのための2つの均質な分岐からなるToken-Guided Dual Transformer (TGDT)アーキテクチャを画像テキスト検索のために提案する。
tgdtは粗粒検索と細粒検索の両方を統一フレームワークに組み込んでおり、両方の検索アプローチの利点を有効活用している。
共通埋め込み空間における画像とテキスト間の意味的結合性を保証するために,cmc(consistent multimodal contrastive)ロスと呼ばれる新しい学習目標を提案する。
提案手法は, 混合グローバルおよび局所モーダル類似性に基づく2段階の推論手法を用いて, 代表的アプローチと比較して, 非常に低い推論時間で, 最先端の検索性能を実現する。
関連論文リスト
- A New Fine-grained Alignment Method for Image-text Matching [4.33417045761714]
クロスモーダルフラグメンツ強化アライニングネットワークは,検索精度の向上を実現する。
実際に、我々はまず、新しいモード内フラグメント関係推論法を設計する。
提案手法は, rSum測定値において, 最先端手法を約5%から10%向上させる。
論文 参考訳(メタデータ) (2023-11-03T18:27:43Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - HGAN: Hierarchical Graph Alignment Network for Image-Text Retrieval [13.061063817876336]
画像テキスト検索のための階層型グラフアライメントネットワーク(HGAN)を提案する。
まず、包括的マルチモーダル特徴を捉えるために、画像の特徴グラフとテキストのモダリティをそれぞれ構築する。
そして、MFAR(Multi-granularity Feature Aggregation and Rearrangement)モジュールを設計した多粒性共有空間を構築する。
最後に、最終的な画像とテキストの特徴は、階層的アライメントを達成するために、3レベル類似関数によってさらに洗練される。
論文 参考訳(メタデータ) (2022-12-16T05:08:52Z) - Image-Specific Information Suppression and Implicit Local Alignment for
Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。
既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。
TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文 参考訳(メタデータ) (2022-08-30T16:14:18Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid
Counterfactual Training for Robust Content-based Image Retrieval [61.803481264081036]
CIR(Content-Based Image Retrieval)は,サンプル画像と補完テキストの合成を同時に解釈することで,対象画像の検索を目的とする。
本稿では,新しいアンダーラインtextbfBottom-up crunderlinetextbfOss-modal underlinetextbfSemantic compounderlinetextbfSition (textbfBOSS) とHybrid Counterfactual Training frameworkを用いてこの問題に取り組む。
論文 参考訳(メタデータ) (2022-07-09T07:14:44Z) - Two-stream Hierarchical Similarity Reasoning for Image-text Matching [66.43071159630006]
文脈情報を自動的に抽出する階層的類似性推論モジュールを提案する。
従来のアプローチでは、シングルストリームの類似性アライメントを学習することしか検討されていなかった。
イメージ・ツー・テキスト・レベルの類似性計算とテキスト・ツー・テキスト・レベルの類似性計算に画像・テキストマッチングを分解する2ストリームアーキテクチャを開発した。
論文 参考訳(メタデータ) (2022-03-10T12:56:10Z) - Text-based Person Search in Full Images via Semantic-Driven Proposal
Generation [42.25611020956918]
本稿では,歩行者検出,識別,視覚意味的特徴埋め込みタスクを協調的に最適化するエンドツーエンド学習フレームワークを提案する。
クエリテキストを最大限に活用するために、セマンティック機能を活用して、リージョン提案ネットワークにテキスト記述された提案にもっと注意を払うように指示する。
論文 参考訳(メタデータ) (2021-09-27T11:42:40Z) - Step-Wise Hierarchical Alignment Network for Image-Text Matching [29.07229472373576]
画像テキストマッチングを多段階のクロスモーダル推論プロセスに分解するステップワイズ階層アライメントネットワーク(SHAN)を提案する。
具体的には,まず,グローバル・ローカル・グローバル・グローバル・グローバル・グローバル・アライメントを文脈レベルで逐次実行し,フラグメントレベルでローカル・ローカル・アライメントを実現する。
論文 参考訳(メタデータ) (2021-06-11T17:05:56Z) - Consensus-Aware Visual-Semantic Embedding for Image-Text Matching [69.34076386926984]
画像テキストマッチングは、視覚と言語をブリッジする上で中心的な役割を果たす。
既存のアプローチのほとんどは、表現を学ぶためにイメージテキストインスタンスペアのみに依存しています。
コンセンサスを意識したビジュアル・セマンティック・エンベディングモデルを提案し,コンセンサス情報を組み込む。
論文 参考訳(メタデータ) (2020-07-17T10:22:57Z) - Fine-grained Image Classification and Retrieval by Combining Visual and
Locally Pooled Textual Features [8.317191999275536]
特に、テキストの存在は、コンピュータビジョンタスクの多様性に対処するために使用されるべき強力なガイドコンテンツを提供する。
本稿では,テキスト情報と視覚的手がかりを併用した細粒度分類と画像検索の課題に対処し,両者の本質的な関係を解明する。
論文 参考訳(メタデータ) (2020-01-14T12:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。