論文の概要: ReText: Text Boosts Generalization in Image-Based Person Re-identification
- arxiv url: http://arxiv.org/abs/2602.05785v1
- Date: Thu, 05 Feb 2026 15:43:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.012146
- Title: ReText: Text Boosts Generalization in Image-Based Person Re-identification
- Title(参考訳): ReText: 画像ベースの人物再識別における一般化を促進するテキスト
- Authors: Timur Mamedov, Karina Kvanchiani, Anton Konushin, Vadim Konushin,
- Abstract要約: Re-ID (Generalizable Image-based person re-identification) は、見えない領域のカメラにまたがる個人を、再訓練せずに認識することを目的としている。
マルチカメラとシングルカメラのデータを混合して学習する新しい手法であるReTextを提案する。
- 参考スコア(独自算出の注目度): 5.637102825156504
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generalizable image-based person re-identification (Re-ID) aims to recognize individuals across cameras in unseen domains without retraining. While multiple existing approaches address the domain gap through complex architectures, recent findings indicate that better generalization can be achieved by stylistically diverse single-camera data. Although this data is easy to collect, it lacks complexity due to minimal cross-view variation. We propose ReText, a novel method trained on a mixture of multi-camera Re-ID data and single-camera data, where the latter is complemented by textual descriptions to enrich semantic cues. During training, ReText jointly optimizes three tasks: (1) Re-ID on multi-camera data, (2) image-text matching, and (3) image reconstruction guided by text on single-camera data. Experiments demonstrate that ReText achieves strong generalization and significantly outperforms state-of-the-art methods on cross-domain Re-ID benchmarks. To the best of our knowledge, this is the first work to explore multimodal joint learning on a mixture of multi-camera and single-camera data in image-based person Re-ID.
- Abstract(参考訳): Re-ID (Generalizable Image-based person re-identification) は、見えない領域のカメラにまたがる個人を、再訓練せずに認識することを目的としている。
複数の既存手法が複雑なアーキテクチャを通してドメインギャップに対処する一方で、最近の知見は、スタイリスティックに多様な単一カメラデータによってより良い一般化が達成できることを示している。
このデータは簡単に収集できるが、最小のクロスビュー変動のために複雑さを欠いている。
本稿では,マルチカメラのRe-IDデータとシングルカメラのデータを混合して学習するReTextを提案する。
トレーニング中、ReTextは、(1)マルチカメラデータのRe-ID、(2)画像テキストマッチング、(3)シングルカメラデータのテキストガイドによる画像再構成の3つのタスクを共同で最適化する。
実験により、ReTextは強力な一般化を実現し、クロスドメインのRe-IDベンチマークで最先端のメソッドよりも大幅に優れていることが示された。
我々の知る限り、これは画像ベースのRe-IDにおけるマルチカメラとシングルカメラデータの混合によるマルチモーダルジョイントラーニングを探求する最初の試みである。
関連論文リスト
- ChatReID: Open-ended Interactive Person Retrieval via Hierarchical Progressive Tuning for Vision Language Models [49.09606704563898]
人物の再識別はコンピュータビジョンにおいて重要な課題であり、重複しないカメラビューを通して個人を認識することを目的としている。
本稿では,テキストを優先した検索パラダイムに焦点を移し,フレキシブルかつインタラクティブな再識別を可能にする新しいフレームワークChatReIDを提案する。
本稿では,人物属性の理解からきめ細かい画像検索,マルチモーダルタスク推論に至るまで,3段階のチューニングを通じてRe-ID能力を実現する階層的プログレッシブチューニング戦略を提案する。
論文 参考訳(メタデータ) (2025-02-27T10:34:14Z) - ReMix: Training Generalized Person Re-identification on a Mixture of Data [1.77513002450736]
ReMixは、限定ラベル付きマルチカメラと大きなラベル付きシングルカメラデータの混合に基づいて、共同で訓練された一般化されたRe-ID手法である。
実験により、ReMixは高度な一般化能力を有し、一般のRe-IDにおいて最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-10-29T10:57:03Z) - Synthesizing Efficient Data with Diffusion Models for Person Re-Identification Pre-Training [51.87027943520492]
本稿では,既知の同一性に基づく多様な画像の効率向上と生成を行う新しいパラダイムDiffusion-ReIDを提案する。
提案したパラダイムに適合して,まず,5,183個のIDから777K以上の画像で構成された,大規模なRe-IDデータセットDiff-Personを新たに作成する。
論文 参考訳(メタデータ) (2024-06-10T06:26:03Z) - TIGeR: Unifying Text-to-Image Generation and Retrieval with Large Multimodal Models [96.72318842152148]
1つのLMM(Large Multimodal Model)を用いたテキスト・画像生成と検索のための統合フレームワークを提案する。
具体的には,LMMの本質的な識別能力について検討し,テキスト・画像検索のための効率的な生成的検索手法を提案する。
次に、テキストプロンプトに対する応答として、生成画像と検索画像の間で最適なマッチング画像を選択するための自律決定機構を提案する。
論文 参考訳(メタデータ) (2024-06-09T15:00:28Z) - Learning Comprehensive Representations with Richer Self for
Text-to-Image Person Re-Identification [34.289949134802086]
TIReID(Text-to-image person re-identification)は、クエリテキストに基づいて同一人物の歩行者画像を取得する。
既存のTIReIDの手法では、通常は1対1の画像テキストマッチングの問題として扱われ、ビュー内の画像テキストペア間の関係にのみ焦点をあてる。
我々はLCR$2$Sと呼ばれるフレームワークを提案し、新しい視点から両方のモダリティの表現を学習することで同一のアイデンティティの多対多対応をモデル化する。
論文 参考訳(メタデータ) (2023-10-17T12:39:16Z) - Benchmarking person re-identification datasets and approaches for
practical real-world implementations [1.0079626733116613]
人物再識別(Re-ID)は注目されている。
しかし、そのようなRe-IDモデルが新しい都市や環境に配備される場合、セキュリティカメラのネットワーク内の人々を探すタスクは、重要なドメインシフトに直面している可能性が高い。
本稿では、ライブオペレーションにおける教師なしデプロイメントに適したデータセットの評価方法について、Re-IDアプローチとトレーニングデータセットの完全な評価手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T03:45:38Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z) - Camera-aware Proxies for Unsupervised Person Re-Identification [60.26031011794513]
本稿では、アノテーションを必要としない純粋に教師なしの人物識別(Re-ID)問題に取り組む。
各クラスタを複数のプロキシに分割し、それぞれのプロキシが同じカメラからのインスタンスを表すことを提案する。
カメラ認識プロキシに基づいて、カメラ内およびカメラ間コントラスト学習コンポーネントをre-idモデル用に設計する。
論文 参考訳(メタデータ) (2020-12-19T12:37:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。