論文の概要: Minimizing the Pretraining Gap: Domain-aligned Text-Based Person Retrieval
- arxiv url: http://arxiv.org/abs/2507.10195v1
- Date: Mon, 14 Jul 2025 12:03:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:24.85589
- Title: Minimizing the Pretraining Gap: Domain-aligned Text-Based Person Retrieval
- Title(参考訳): 事前学習ギャップの最小化:ドメイン整列テキストベースの人物検索
- Authors: Shuyu Yang, Yaxiong Wang, Yongrui Li, Li Zhu, Zhedong Zheng,
- Abstract要約: 画像と領域レベルでのドメイン適応を考慮した統合テキストベースの人物検索パイプラインを提案する。
提案手法はCUHK-PEDES, ICFG-PEDES, RSTPReidデータセットに対して, 最先端の処理結果を得た。
- 参考スコア(独自算出の注目度): 24.544672733180196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we focus on text-based person retrieval, which aims to identify individuals based on textual descriptions. Given the significant privacy issues and the high cost associated with manual annotation, synthetic data has become a popular choice for pretraining models, leading to notable advancements. However, the considerable domain gap between synthetic pretraining datasets and real-world target datasets, characterized by differences in lighting, color, and viewpoint, remains a critical obstacle that hinders the effectiveness of the pretrain-finetune paradigm. To bridge this gap, we introduce a unified text-based person retrieval pipeline considering domain adaptation at both image and region levels. In particular, it contains two primary components, i.e., Domain-aware Diffusion (DaD) for image-level adaptation and Multi-granularity Relation Alignment (MRA) for region-level adaptation. As the name implies, Domain-aware Diffusion is to migrate the distribution of images from the pretraining dataset domain to the target real-world dataset domain, e.g., CUHK-PEDES. Subsequently, MRA performs a meticulous region-level alignment by establishing correspondences between visual regions and their descriptive sentences, thereby addressing disparities at a finer granularity. Extensive experiments show that our dual-level adaptation method has achieved state-of-the-art results on the CUHK-PEDES, ICFG-PEDES, and RSTPReid datasets, outperforming existing methodologies. The dataset, model, and code are available at https://github.com/Shuyu-XJTU/MRA.
- Abstract(参考訳): 本研究では,テキスト記述に基づく個人識別を目的とした,テキストに基づく人物検索に焦点を当てた。
重要なプライバシー問題と手動のアノテーションに関連する高コストを考えると、合成データは事前訓練モデルの一般的な選択肢となり、顕著な進歩をもたらしている。
しかし、光、色、視点の違いを特徴とする合成事前学習データセットと現実世界のターゲットデータセットとの領域ギャップは、プレトレイン-ファイントゥンパラダイムの有効性を妨げる重要な障害である。
このギャップを埋めるために、画像と地域レベルでのドメイン適応を考慮した統一テキストベースの人物検索パイプラインを導入する。
特に、画像レベルの適応のためのDomain-Aware Diffusion (DaD) と、領域レベルの適応のためのMRA (Multi-granularity Relation Alignment) の2つの主要コンポーネントを含んでいる。
ドメイン認識拡散(Domain-aware Diffusion)とは、トレーニング済みのデータセットドメインからターゲットの現実世界のデータセットドメイン(CUHK-PEDESなど)にイメージの分布を移行することである。
その後、MRAは、視覚領域とその記述文の対応性を確立し、より微細な粒度の相違に対処することにより、繊細な領域レベルのアライメントを行う。
広汎な実験により, CUHK-PEDES, ICFG-PEDES, RSTPReidデータセットの2段階適応法は, 既存の手法より優れていることがわかった。
データセット、モデル、コードはhttps://github.com/Shuyu-XJTU/MRAで公開されている。
関連論文リスト
- Exploiting Aggregation and Segregation of Representations for Domain Adaptive Human Pose Estimation [50.31351006532924]
人間のポーズ推定(HPE)は最近、モーション分析、バーチャルリアリティー、ヘルスケア等に広く応用されているため、注目を集めている。
時間と労働集約的なアノテーションのために、ラベル付き現実世界のデータセットが不足している。
本稿では,ドメイン適応型人間のポーズ推定のための表現集約と分離を両立させる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-29T17:59:45Z) - Stratified Domain Adaptation: A Progressive Self-Training Approach for Scene Text Recognition [1.2878987353423252]
シーンテキスト認識(STR)において、教師なしドメイン適応(UDA)がますます普及している。
本稿では,StrDA(Stratified Domain Adaptation)アプローチを導入し,学習プロセスにおける領域ギャップの段階的エスカレーションについて検討する。
本稿では,データサンプルの分布外および領域判別レベルを推定するために,領域判別器を用いる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-13T16:40:48Z) - One-Shot Domain Adaptive and Generalizable Semantic Segmentation with
Class-Aware Cross-Domain Transformers [96.51828911883456]
セマンティックセグメンテーションのための教師なしのsim-to-realドメイン適応(UDA)は、シミュレーションデータに基づいて訓練されたモデルの実世界のテスト性能を改善することを目的としている。
従来のUDAは、適応のためのトレーニング中に利用可能なラベルのない実世界のサンプルが豊富にあると仮定することが多い。
実世界のデータサンプルが1つしか利用できない,一発の教師なしシム・トゥ・リアル・ドメイン適応(OSUDA)と一般化問題について検討する。
論文 参考訳(メタデータ) (2022-12-14T15:54:15Z) - Domain-Agnostic Prior for Transfer Semantic Segmentation [197.9378107222422]
教師なしドメイン適応(UDA)はコンピュータビジョンコミュニティにおいて重要なトピックである。
ドメインに依存しない事前学習(DAP)を用いてドメイン間表現学習を規則化する機構を提案する。
我々の研究は、UDAがより良いプロキシ、おそらく他のデータモダリティの恩恵を受けていることを明らかにしている。
論文 参考訳(メタデータ) (2022-04-06T09:13:25Z) - Stagewise Unsupervised Domain Adaptation with Adversarial Self-Training
for Road Segmentation of Remote Sensing Images [93.50240389540252]
リモートセンシング画像からの道路セグメンテーションは、幅広い応用可能性を持つ課題である。
本稿では,この領域における領域シフト(DS)問題に対処するため,RoadDAと呼ばれる新たな段階的ドメイン適応モデルを提案する。
2つのベンチマーク実験の結果、RoadDAはドメインギャップを効率的に減らし、最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-08-28T09:29:14Z) - Multi-Source Domain Adaptation with Collaborative Learning for Semantic
Segmentation [32.95273803359897]
マルチソース非監視ドメイン適応(MSDA)は、複数のラベル付きソースドメインで訓練されたモデルをラベル付きターゲットドメインに適応することを目的とする。
セマンティックセグメンテーションのための協調学習に基づく新しいマルチソースドメイン適応フレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-08T12:51:42Z) - Cross-Domain Facial Expression Recognition: A Unified Evaluation
Benchmark and Adversarial Graph Learning [85.6386289476598]
我々は,クロスドメイン全体的特徴共適応のための新しい逆グラフ表現適応(AGRA)フレームワークを開発した。
我々は,いくつかの一般的なベンチマークで広範囲かつ公平な評価を行い,提案したAGRAフレームワークが従来の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-08-03T15:00:31Z) - Contextual-Relation Consistent Domain Adaptation for Semantic
Segmentation [44.19436340246248]
本稿では,革新的局所文脈相関整合ドメイン適応手法を提案する。
グローバルレベルのアライメントにおいて、地域レベルのコンピテンシーを達成することを目的としている。
実験では, 最先端手法と比較して, セグメンテーション性能が優れていることを示した。
論文 参考訳(メタデータ) (2020-07-05T19:00:46Z) - Unsupervised Domain Adaptation with Multiple Domain Discriminators and
Adaptive Self-Training [22.366638308792734]
Unsupervised Domain Adaptation (UDA)は、ソースドメインでトレーニングされたモデルの一般化能力を改善し、ラベル付きデータが使用できないターゲットドメインでうまく機能することを目的としている。
本稿では、合成データに基づいて訓練されたディープニューラルネットワークを、2つの異なるデータ分布間のドメインシフトに対処する実シーンに適用するアプローチを提案する。
論文 参考訳(メタデータ) (2020-04-27T11:48:03Z) - Phase Consistent Ecological Domain Adaptation [76.75730500201536]
意味的セグメンテーション(意味的セグメンテーション)の課題に焦点をあてる。そこでは、注釈付き合成データが多用されるが、実際のデータへのアノテートは困難である。
視覚心理学に触発された最初の基準は、2つの画像領域間の地図が位相保存であることである。
第2の基準は、照明剤や撮像センサーの特性に関わらず、その画像に現れる環境統計、またはシーン内の規則を活用することを目的としている。
論文 参考訳(メタデータ) (2020-04-10T06:58:03Z) - Focus on Semantic Consistency for Cross-domain Crowd Understanding [34.560447389853614]
いくつかのドメイン適応アルゴリズムは、合成データでモデルをトレーニングすることでそれを解放しようとする。
その結果,背景領域における推定誤差が既存手法の性能を阻害していることが判明した。
本稿では,ドメイン適応手法を提案する。
論文 参考訳(メタデータ) (2020-02-20T08:51:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。