論文の概要: Text-based Aerial-Ground Person Retrieval
- arxiv url: http://arxiv.org/abs/2511.08369v1
- Date: Wed, 12 Nov 2025 01:55:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.78409
- Title: Text-based Aerial-Ground Person Retrieval
- Title(参考訳): テキストによる空中人物検索
- Authors: Xinyu Zhou, Yu Wu, Jiayao Ma, Wenhao Wang, Min Cao, Mang Ye,
- Abstract要約: 本研究はTAG-PR(Text-based Aerial-Ground Person Retrieval)を紹介する。
異質な空中・地上からの人物画像をテキスト記述で検索することを目的としている。
- 参考スコア(独自算出の注目度): 55.31140361809554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work introduces Text-based Aerial-Ground Person Retrieval (TAG-PR), which aims to retrieve person images from heterogeneous aerial and ground views with textual descriptions. Unlike traditional Text-based Person Retrieval (T-PR), which focuses solely on ground-view images, TAG-PR introduces greater practical significance and presents unique challenges due to the large viewpoint discrepancy across images. To support this task, we contribute: (1) TAG-PEDES dataset, constructed from public benchmarks with automatically generated textual descriptions, enhanced by a diversified text generation paradigm to ensure robustness under view heterogeneity; and (2) TAG-CLIP, a novel retrieval framework that addresses view heterogeneity through a hierarchically-routed mixture of experts module to learn view-specific and view-agnostic features and a viewpoint decoupling strategy to decouple view-specific features for better cross-modal alignment. We evaluate the effectiveness of TAG-CLIP on both the proposed TAG-PEDES dataset and existing T-PR benchmarks. The dataset and code are available at https://github.com/Flame-Chasers/TAG-PR.
- Abstract(参考訳): 本研究は,異種空中および地上からの人物画像のテキスト記述による検索を目的とした,テキストベースのAerial-Ground Person Retrieval (TAG-PR)を紹介する。
地上画像のみに焦点をあてた従来のテキストベースPerson Retrieval(T-PR)とは異なり、TAG-PRはより実践的な重要性を導入し、画像間の大きな視点差による固有の課題を提示する。
この課題を支援するために,1) テキストの自動記述を備えた公開ベンチマークから構築されたTAG-PEDESデータセットを,ビューの不均一性の下での堅牢性を保証するために多角化テキスト生成パラダイムによって強化し,(2) ビュー固有の特徴とビューに依存しない特徴を学習するための専門家モジュールの階層的混合によるビューの不均一性に対処する新しい検索フレームワークであるTAG-CLIPと,ビュー固有特徴とビューデカップリング戦略を相互アライメントの改善のために分離する視点デカップリング戦略を提案する。
提案したTAG-PEDESデータセットと既存のT-PRベンチマークにおけるTAG-CLIPの有効性を評価する。
データセットとコードはhttps://github.com/Flame-Chasers/TAG-PRで公開されている。
関連論文リスト
- Beat: Bi-directional One-to-Many Embedding Alignment for Text-based Person Retrieval [66.61856014573742]
テキストベースの人物検索(TPR)は、テキスト記述に基づいて特定の個人を検索する難題である。
これまでは、テキストと画像のサンプルをモーダルシェード空間で整列させようと試みてきた。
本稿では,各サンプルに対して明確な最適化方向を提供する,効果的な双方向一対多埋め込みパラダイムを提案する。
論文 参考訳(メタデータ) (2024-06-09T03:06:55Z) - Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [12.057465578064345]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。
本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - ViewCo: Discovering Text-Supervised Segmentation Masks via Multi-View
Semantic Consistency [126.88107868670767]
テキスト教師付きセマンティックセグメンテーションのためのマルチテキストbfView textbfConsistent Learning (ViewCo)を提案する。
まず,同じ入力画像の複数ビューに対する対応性を学習するためのテキスト・ツー・ビュー整合性モデリングを提案する。
また,テキスト管理の曖昧性問題に対処するために,クロスビューセグメンテーション整合性モデリングを提案する。
論文 参考訳(メタデータ) (2023-01-31T01:57:52Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Text-based Person Search in Full Images via Semantic-Driven Proposal
Generation [42.25611020956918]
本稿では,歩行者検出,識別,視覚意味的特徴埋め込みタスクを協調的に最適化するエンドツーエンド学習フレームワークを提案する。
クエリテキストを最大限に活用するために、セマンティック機能を活用して、リージョン提案ネットワークにテキスト記述された提案にもっと注意を払うように指示する。
論文 参考訳(メタデータ) (2021-09-27T11:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。