論文の概要: Beat: Bi-directional One-to-Many Embedding Alignment for Text-based Person Retrieval
- arxiv url: http://arxiv.org/abs/2406.05620v1
- Date: Sun, 9 Jun 2024 03:06:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 18:56:27.526739
- Title: Beat: Bi-directional One-to-Many Embedding Alignment for Text-based Person Retrieval
- Title(参考訳): Beat: テキスト検索のための双方向ワン・ツー・マン・エンベディング・アライメント
- Authors: Yiwei Ma, Xiaoshuai Sun, Jiayi Ji, Guannan Jiang, Weilin Zhuang, Rongrong Ji,
- Abstract要約: テキストベースの人物検索(TPR)は、テキスト記述に基づいて特定の個人を検索する難題である。
これまでは、テキストと画像のサンプルをモーダルシェード空間で整列させようと試みてきた。
本稿では,各サンプルに対して明確な最適化方向を提供する,効果的な双方向一対多埋め込みパラダイムを提案する。
- 参考スコア(独自算出の注目度): 66.61856014573742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-based person retrieval (TPR) is a challenging task that involves retrieving a specific individual based on a textual description. Despite considerable efforts to bridge the gap between vision and language, the significant differences between these modalities continue to pose a challenge. Previous methods have attempted to align text and image samples in a modal-shared space, but they face uncertainties in optimization directions due to the movable features of both modalities and the failure to account for one-to-many relationships of image-text pairs in TPR datasets. To address this issue, we propose an effective bi-directional one-to-many embedding paradigm that offers a clear optimization direction for each sample, thus mitigating the optimization problem. Additionally, this embedding scheme generates multiple features for each sample without introducing trainable parameters, making it easier to align with several positive samples. Based on this paradigm, we propose a novel Bi-directional one-to-many Embedding Alignment (Beat) model to address the TPR task. Our experimental results demonstrate that the proposed Beat model achieves state-of-the-art performance on three popular TPR datasets, including CUHK-PEDES (65.61 R@1), ICFG-PEDES (58.25 R@1), and RSTPReID (48.10 R@1). Furthermore, additional experiments on MS-COCO, CUB, and Flowers datasets further demonstrate the potential of Beat to be applied to other image-text retrieval tasks.
- Abstract(参考訳): テキストベースの人物検索(TPR)は、テキスト記述に基づいて特定の個人を検索する難題である。
視覚と言語の間のギャップを埋めようというかなりの努力にもかかわらず、これらのモダリティの間には大きな違いがある。
従来の手法では、モーダルシェード空間におけるテキストと画像サンプルの整列を試みたが、モダリティの両方の可動性やTPRデータセットにおける画像-テキスト対の1対1の関係を考慮できないため、最適化方向の不確かさに直面した。
この問題に対処するため、各サンプルに対して明確な最適化方向を提供する効果的な双方向一対多埋め込みパラダイムを提案し、最適化問題を緩和する。
さらに、この埋め込み方式は、トレーニング可能なパラメータを導入することなく、各サンプルに対して複数の特徴を生成するため、複数の正のサンプルと整合しやすくなる。
このパラダイムに基づいて、TPRタスクに対処する新しい双方向一対多埋め込みアライメント(Beat)モデルを提案する。
実験の結果,提案手法はCUHK-PEDES (65.61 R@1), ICFG-PEDES (58.25 R@1), RSTPReID (48.10 R@1) の3つのTPRデータセットに対して,最先端の性能を達成できた。
さらに、MS-COCO、CUB、Flowersデータセットのさらなる実験は、他の画像テキスト検索タスクに適用されるBeatsの可能性をさらに示している。
関連論文リスト
- Debiasing Vison-Language Models with Text-Only Training [15.069736314663352]
視覚バイアスを軽減するために,テキスト・アズ・イメージ・トレーニング・パラダイムを活用するTODというテキスト・オン・デバイアス・フレームワークを提案する。
そこで本研究では,テキスト・アズ・イメージ・トレーニングのパラダイムを活用し,視覚バイアスを緩和するテキスト・オン・デバイアス化フレームワークTODを提案する。
論文 参考訳(メタデータ) (2024-10-12T04:34:46Z) - Latent Space Disentanglement in Diffusion Transformers Enables Zero-shot Fine-grained Semantic Editing [4.948910649137149]
Diffusion Transformer (DiTs) は多種多様な高品質のテキスト・トゥ・イメージ(T2I)生成において顕著な成功を収めた。
テキストと画像の潜伏者が、生成した画像のセマンティクスに、個々と共同でどのように貢献するかを検討する。
ゼロショットきめ細かい画像編集のための簡易かつ効果的な抽出マニピュレーション・サンプル・フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-23T19:00:52Z) - OT-Attack: Enhancing Adversarial Transferability of Vision-Language
Models via Optimal Transport Optimization [65.57380193070574]
視覚言語事前学習モデルは、マルチモーダル対逆例に対して脆弱である。
近年の研究では、データ拡張と画像-テキストのモーダル相互作用を活用することで、対向的な例の転送可能性を高めることが示されている。
本稿では,OT-Attack と呼ばれる最適輸送方式の敵攻撃を提案する。
論文 参考訳(メタデータ) (2023-12-07T16:16:50Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。
既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。
本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文 参考訳(メタデータ) (2023-05-22T12:13:08Z) - Text-based Person Search in Full Images via Semantic-Driven Proposal
Generation [42.25611020956918]
本稿では,歩行者検出,識別,視覚意味的特徴埋め込みタスクを協調的に最適化するエンドツーエンド学習フレームワークを提案する。
クエリテキストを最大限に活用するために、セマンティック機能を活用して、リージョン提案ネットワークにテキスト記述された提案にもっと注意を払うように指示する。
論文 参考訳(メタデータ) (2021-09-27T11:42:40Z) - Deep Semantic Matching with Foreground Detection and Cycle-Consistency [103.22976097225457]
深層ネットワークに基づく弱い教師付きセマンティックマッチングに対処する。
本研究では,背景乱れの影響を抑えるために,前景領域を明示的に推定する。
複数の画像にまたがって予測変換を強制し、幾何的に可視かつ一貫したサイクル一貫性の損失を発生させる。
論文 参考訳(メタデータ) (2020-03-31T22:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。