論文の概要: Look Before You Leap: Improving Text-based Person Retrieval by Learning
A Consistent Cross-modal Common Manifold
- arxiv url: http://arxiv.org/abs/2209.06209v1
- Date: Tue, 13 Sep 2022 07:21:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-15 14:01:28.563421
- Title: Look Before You Leap: Improving Text-based Person Retrieval by Learning
A Consistent Cross-modal Common Manifold
- Title(参考訳): テキストによる人物検索の改善 : 一貫性のあるクロスモーダル・コモン・マニフォールドの学習
- Authors: Zijie Wang, Aichun Zhu, Jingyi Xue, Xili Wan, Chao Liu, Tian Wang,
Yifeng Li
- Abstract要約: テキストベースの人物検索の中核的な問題は、マルチモーダルデータ間の不均一なギャップを埋める方法である。
我々はLBULと呼ばれる新しいアルゴリズムを提案し、一貫性のあるクロスモーダル・コモン・マニフォールドを学習する。
実験の結果,提案したLBULは従来手法よりも優れ,最先端性能を実現していることがわかった。
- 参考スコア(独自算出の注目度): 8.711154013438627
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The core problem of text-based person retrieval is how to bridge the
heterogeneous gap between multi-modal data. Many previous approaches contrive
to learning a latent common manifold mapping paradigm following a
\textbf{cross-modal distribution consensus prediction (CDCP)} manner. When
mapping features from distribution of one certain modality into the common
manifold, feature distribution of the opposite modality is completely
invisible. That is to say, how to achieve a cross-modal distribution consensus
so as to embed and align the multi-modal features in a constructed cross-modal
common manifold all depends on the experience of the model itself, instead of
the actual situation. With such methods, it is inevitable that the multi-modal
data can not be well aligned in the common manifold, which finally leads to a
sub-optimal retrieval performance. To overcome this \textbf{CDCP dilemma}, we
propose a novel algorithm termed LBUL to learn a Consistent Cross-modal Common
Manifold (C$^{3}$M) for text-based person retrieval. The core idea of our
method, just as a Chinese saying goes, is to `\textit{san si er hou xing}',
namely, to \textbf{Look Before yoU Leap (LBUL)}. The common manifold mapping
mechanism of LBUL contains a looking step and a leaping step. Compared to
CDCP-based methods, LBUL considers distribution characteristics of both the
visual and textual modalities before embedding data from one certain modality
into C$^{3}$M to achieve a more solid cross-modal distribution consensus, and
hence achieve a superior retrieval accuracy. We evaluate our proposed method on
two text-based person retrieval datasets CUHK-PEDES and RSTPReid. Experimental
results demonstrate that the proposed LBUL outperforms previous methods and
achieves the state-of-the-art performance.
- Abstract(参考訳): テキストベースの人物検索の中核的な問題は、マルチモーダルデータ間の不均一なギャップを埋める方法である。
以前の多くのアプローチは、cdcp法に従って潜伏共通多様体マッピングパラダイムを学習することを意図していた。
あるモダリティの分布から共通多様体への特徴をマッピングするとき、反対モダリティの特徴分布は完全に見えない。
すなわち、構築されたクロスモーダル共通多様体にマルチモーダルな特徴を埋め込んで整列するために、どのようにクロスモーダル分布のコンセンサスを達成するかは、実際の状況ではなくモデル自身の経験に依存する。
このような手法では、マルチモーダルデータが共通多様体内で適切に整列できないことが避けられないため、最終的に準最適検索性能が得られる。
そこで本研究では,LBULと呼ばれる新しいアルゴリズムを提案し,テキストに基づく人物検索のためのC$^{3}$M(Consistent Cross-modal Common Manifold)を学習する。
我々の方法の中核となる考え方は、漢文が言うように、 '\textit{san si er hou xing}' であり、つまり \textbf{Look before yoU Leap (LBUL)} である。
LBULの共通多様体マッピング機構は、ルックステップと跳躍ステップを含む。
CDCP法と比較して、LBULは、ある特定のモダリティからC$^{3}$Mにデータを埋め込む前に、視覚とテキストの両方のモダリティの分布特性を考慮し、より安定したクロスモーダル分布のコンセンサスを実現し、より優れた精度を実現する。
提案手法を2つのテキストベース人物検索データセットCUHK-PEDESとRSTPReidで評価した。
実験の結果,提案手法は従来の手法よりも優れており,最新性能が得られた。
関連論文リスト
- Multimodality Helps Few-Shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
本稿では,テキストラベルと潜在的に利用可能な2次元画像モダリティを利用して,コストフリーのマルチモーダルFS-PCSセットアップを提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダルセグ(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。
ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - CPCL: Cross-Modal Prototypical Contrastive Learning for Weakly
Supervised Text-based Person Re-Identification [10.64115914599574]
弱教師付きテキストベース人物識別(TPRe-ID)は、テキスト記述を用いて対象人物の画像の検索を試みる。
主な課題はクラス内の違いであり、モーダル内特徴のバリエーションとモーダル間のセマンティックギャップを含んでいる。
実際には、CPCLはCLIPモデルを初めて弱教師付きTPRe-IDに導入し、ビジュアルインスタンスとテキストインスタンスを共有潜在空間にマッピングする。
論文 参考訳(メタデータ) (2024-01-18T14:27:01Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Prototype-based Aleatoric Uncertainty Quantification for Cross-modal
Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。
しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。
本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:41:19Z) - Cross-Modal Implicit Relation Reasoning and Aligning for Text-to-Image
Person Retrieval [29.884153827619915]
IRRA:クロスモーダルImplicit Relation Reasoning and Aligning frameworkを提案する。
ローカルなビジュアルテキストトークン間の関係を学習し、グローバルな画像テキストマッチングを強化する。
提案手法は,3つの公開データセットすべてに対して,最先端の新たな結果を実現する。
論文 参考訳(メタデータ) (2023-03-22T12:11:59Z) - Generalizing Multimodal Variational Methods to Sets [35.69942798534849]
本稿では,マルチモーダル潜在空間を学習するために,Set Multimodal VAE(SMVAE)と呼ばれる新しい変分法を提案する。
共同モダリティ後部分布を直接モデル化することにより、提案したSMVAEは、複数のモダリティ間で情報を交換し、分解による欠点を補うことを学習する。
論文 参考訳(メタデータ) (2022-12-19T23:50:19Z) - Few-shot Multimodal Sentiment Analysis based on Multimodal Probabilistic
Fusion Prompts [30.15646658460899]
ソーシャルメディア上でのマルチモーダルコンテンツの普及により,マルチモーダル感情分析が注目されている。
この地域の既存の研究は、大規模に監督されたデータに大きく依存している。
マルチモーダルな感情検出のために,様々なモーダルから多様な手がかりを生かしたマルチモーダル確率核融合法(MultiPoint)を提案する。
論文 参考訳(メタデータ) (2022-11-12T08:10:35Z) - VLMixer: Unpaired Vision-Language Pre-training via Cross-Modal CutMix [59.25846149124199]
本稿では,データ拡張手法,すなわちクロスモーダルCutMixを提案する。
CMCは自然文をテキストビューからマルチモーダルビューに変換する。
クロスモーダルノイズをユニモーダルデータにアタッチすることで、モダリティ間のトークンレベルの相互作用を学習し、より優れたデノゲーションを実現する。
論文 参考訳(メタデータ) (2022-06-17T17:56:47Z) - SummPip: Unsupervised Multi-Document Summarization with Sentence Graph
Compression [61.97200991151141]
SummPipはマルチドキュメント要約のための教師なしの手法である。
元の文書を文グラフに変換し、言語表現と深層表現の両方を考慮に入れます。
次に、スペクトルクラスタリングを適用して複数の文のクラスタを取得し、最後に各クラスタを圧縮して最終的な要約を生成する。
論文 参考訳(メタデータ) (2020-07-17T13:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。