論文の概要: Cross-Modal Implicit Relation Reasoning and Aligning for Text-to-Image
Person Retrieval
- arxiv url: http://arxiv.org/abs/2303.12501v1
- Date: Wed, 22 Mar 2023 12:11:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-23 14:14:54.866044
- Title: Cross-Modal Implicit Relation Reasoning and Aligning for Text-to-Image
Person Retrieval
- Title(参考訳): テキストと画像の人物検索のための相互関係推論とアライメント
- Authors: Ding Jiang, Mang Ye
- Abstract要約: IRRA:クロスモーダルImplicit Relation Reasoning and Aligning frameworkを提案する。
ローカルなビジュアルテキストトークン間の関係を学習し、グローバルな画像テキストマッチングを強化する。
提案手法は,3つの公開データセットすべてに対して,最先端の新たな結果を実現する。
- 参考スコア(独自算出の注目度): 29.884153827619915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image person retrieval aims to identify the target person based on a
given textual description query. The primary challenge is to learn the mapping
of visual and textual modalities into a common latent space. Prior works have
attempted to address this challenge by leveraging separately pre-trained
unimodal models to extract visual and textual features. However, these
approaches lack the necessary underlying alignment capabilities required to
match multimodal data effectively. Besides, these works use prior information
to explore explicit part alignments, which may lead to the distortion of
intra-modality information. To alleviate these issues, we present IRRA: a
cross-modal Implicit Relation Reasoning and Aligning framework that learns
relations between local visual-textual tokens and enhances global image-text
matching without requiring additional prior supervision. Specifically, we first
design an Implicit Relation Reasoning module in a masked language modeling
paradigm. This achieves cross-modal interaction by integrating the visual cues
into the textual tokens with a cross-modal multimodal interaction encoder.
Secondly, to globally align the visual and textual embeddings, Similarity
Distribution Matching is proposed to minimize the KL divergence between
image-text similarity distributions and the normalized label matching
distributions. The proposed method achieves new state-of-the-art results on all
three public datasets, with a notable margin of about 3%-9% for Rank-1 accuracy
compared to prior methods.
- Abstract(参考訳): テキストから画像への人物検索は、与えられたテキスト記述クエリに基づいて対象人物を識別することを目的としている。
主な課題は、視覚とテキストのモダリティを共通の潜在空間にマッピングすることである。
先行研究は、視覚的およびテキスト的特徴を抽出するために、個別に訓練されたユニモーダルモデルを活用することで、この課題に対処しようとした。
しかし、これらのアプローチには、マルチモーダルデータに効果的に対応するために必要なアライメント機能がない。
さらに、これらの作品は事前情報を使用して明示的な部分アライメントを探索し、モダリティ内情報の歪みを引き起こす可能性がある。
これらの問題を緩和するため、IRRAは、局所的な視覚的・テクスチャトークン間の関係を学習し、追加の事前監視を必要とせず、グローバルな画像テキストマッチングを強化する。
具体的には、まず、マスク付き言語モデリングパラダイムでImplicit Relation Reasoningモジュールを設計する。
これにより、視覚手がかりをクロスモーダルマルチモーダルインタラクションエンコーダとテキストトークンに統合することで、クロスモーダルインタラクションを実現する。
次に,視覚とテキストの埋め込みをグローバルに調整するために,画像とテキストの類似度分布と正規化ラベルマッチング分布とのkl発散を最小限に抑えるために類似度分布マッチングを提案する。
提案手法は,3つの公開データセットすべてに対して,従来の手法に比べて約3%-9%の精度で新たな最先端結果が得られる。
関連論文リスト
- Contextualized Diffusion Models for Text-Guided Image and Video Generation [67.69171154637172]
条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。
本研究では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルコンテキストを組み込むことにより,コンテキスト拡散モデル(ContextDiff)を提案する。
理論的導出を伴うDDPMとDDIMの両方にモデルを一般化し、テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において、モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-26T15:01:16Z) - Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [11.798006331912056]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。
本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z) - Efficient Token-Guided Image-Text Retrieval with Consistent Multimodal
Contrastive Training [33.78990448307792]
画像テキスト検索は、視覚と言語間の意味的関係を理解するための中心的な問題である。
以前の作品では、全体像とテキストの粗い粒度の表現を単に学習するか、画像領域またはピクセルとテキストワードの対応を精巧に確立する。
本研究では、粗い表現学習ときめ細かい表現学習を統一した枠組みに組み合わせて、新しい視点から画像テキストの検索を行う。
論文 参考訳(メタデータ) (2023-06-15T00:19:13Z) - Weakly-Supervised Visual-Textual Grounding with Semantic Prior
Refinement [52.80968034977751]
画像-文ペアのみを用いて、弱い教師付き視覚-テクスチュアルグラウンドは、各エンティティの言及の領域-フレーズ対応を学習することを目的としている。
本稿では,2つの主モジュールの出力を組み合わせて予測を行うセマンティック・プライオリファインメント・モデル(SPRM)を提案する。
このアプローチでは、Flickr30k EntitiesとReferItの2つの一般的なデータセットに対する最先端の結果が9.6%の絶対的な改善で示されている。
論文 参考訳(メタデータ) (2023-05-18T12:25:07Z) - Image-Specific Information Suppression and Implicit Local Alignment for
Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。
既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。
TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文 参考訳(メタデータ) (2022-08-30T16:14:18Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid
Counterfactual Training for Robust Content-based Image Retrieval [61.803481264081036]
CIR(Content-Based Image Retrieval)は,サンプル画像と補完テキストの合成を同時に解釈することで,対象画像の検索を目的とする。
本稿では,新しいアンダーラインtextbfBottom-up crunderlinetextbfOss-modal underlinetextbfSemantic compounderlinetextbfSition (textbfBOSS) とHybrid Counterfactual Training frameworkを用いてこの問題に取り組む。
論文 参考訳(メタデータ) (2022-07-09T07:14:44Z) - Contrastive Cross-Modal Knowledge Sharing Pre-training for
Vision-Language Representation Learning and Retrieval [12.30468719055037]
コントラスト型クロスモーダル知識共有事前学習(COOKIE)を開発した。
最初のモジュールはウェイトシェアリングトランスフォーマーで、ビジュアルエンコーダとテキストエンコーダの頭の上に構築されている。
もう1つは、異なるモデル間で知識を共有することを目的として、特別に設計された3つの対照的な学習である。
論文 参考訳(メタデータ) (2022-07-02T04:08:44Z) - ITA: Image-Text Alignments for Multi-Modal Named Entity Recognition [38.08486689940946]
MNER(Multi-modal Named Entity Recognition)は多くの注目を集めている。
画像やテキスト表現などのインタラクションを,それぞれのモダリティのデータに基づいて個別に訓練することは困難である。
本稿では,画像特徴をテキスト空間に整列させるため,bf Image-bf text bf Alignments (ITA)を提案する。
論文 参考訳(メタデータ) (2021-12-13T08:29:43Z) - FILIP: Fine-grained Interactive Language-Image Pre-Training [106.19474076935363]
微粒な対話型言語-画像事前学習は、モーダルな遅延相互作用機構を通じてより細粒度なアライメントを実現する。
我々は,FILIP300Mと呼ばれる大規模画像テキストペアデータセットを構築し,事前学習を行う。
実験により、FILIPは複数の下流視覚言語タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2021-11-09T17:15:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。