論文の概要: Decoupled Cross-Modal Alignment Network for Text-RGBT Person Retrieval and A High-Quality Benchmark
- arxiv url: http://arxiv.org/abs/2503.07950v2
- Date: Mon, 16 Jun 2025 03:46:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 15:15:30.298939
- Title: Decoupled Cross-Modal Alignment Network for Text-RGBT Person Retrieval and A High-Quality Benchmark
- Title(参考訳): テキストRGBT人物検索のための非結合型クロスモーダルアライメントネットワークと高品質ベンチマーク
- Authors: Yifei Deng, Chenglong Li, Zhenyu Chen, Zihen Xu, Jin Tang,
- Abstract要約: 検索の堅牢性を高める効果的な戦略として,クロスモーダル情報融合が出現している。
可視光と熱の両モードの相補的な手がかりを組み合わせることで、クロススペクトル情報融合を取り入れたText-RGBT Person Retrievalを提案する。
本研究では,この分野の研究開発を促進するために,高品質なテキストRGBT人物検索データセットであるRGBT-PEDESを作成する。
- 参考スコア(独自算出の注目度): 16.169785019933485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of traditional text-image person retrieval task is easily affected by lighting variations due to imaging limitations of visible spectrum sensors. In recent years, cross-modal information fusion has emerged as an effective strategy to enhance retrieval robustness. By integrating complementary information from different spectral modalities, it becomes possible to achieve more stable person recognition and matching under complex real-world conditions. Motivated by this, we introduce a novel task: Text-RGBT Person Retrieval, which incorporates cross-spectrum information fusion by combining the complementary cues from visible and thermal modalities for robust person retrieval in challenging environments. The key challenge of Text-RGBT person retrieval lies in aligning text with multi-modal visual features. However, the inherent heterogeneity between visible and thermal modalities may interfere with the alignment between vision and language. To handle this problem, we propose a Decoupled Cross-modal Alignment network (DCAlign), which sufficiently mines the relationships between modality-specific and modality-collaborative visual with the text, for Text-RGBT person retrieval. To promote the research and development of this field, we create a high-quality Text-RGBT person retrieval dataset, RGBT-PEDES. RGBT-PEDES contains 1,822 identities from different age groups and genders with 4,723 pairs of calibrated RGB and T images, and covers high-diverse scenes from both daytime and nighttime with a various of challenges such as occlusion, weak alignment and adverse lighting conditions. Additionally, we carefully annotate 7,987 fine-grained textual descriptions for all RGBT person image pairs. Extensive experiments on RGBT-PEDES demonstrate that our method outperforms existing text-image person retrieval methods.
- Abstract(参考訳): 従来のテキスト画像人物検索タスクの性能は、可視光センサの撮像限界による照明変動の影響を受けやすい。
近年,検索の堅牢性を高めるための効果的な戦略として,クロスモーダル情報融合が出現している。
異なるスペクトルモードからの相補的な情報を統合することにより、より安定した人物認識と、複雑な実世界の条件下でのマッチングを実現することができる。
テキスト-RGBT Person Retrievalは、可視的および熱的モダリティからの相補的手がかりを組み合わせて、難易度の高い環境下での堅牢な人物検索を行う。
Text-RGBTの人物検索の鍵となる課題は、テキストとマルチモーダルな視覚的特徴の整合にある。
しかし、可視性と熱的モダリティの固有の不均一性は、視覚と言語の間のアライメントを阻害する可能性がある。
この問題を解決するために、テキスト-RGBT人物検索において、モダリティ特化とモダリティ協調視覚の関係を十分に検討するDecoupled Cross-Modal Alignment Network (DCAlign)を提案する。
本研究では,この分野の研究開発を促進するために,高品質なテキストRGBT人物検索データセットであるRGBT-PEDESを作成する。
RGBT-PEDESは、年齢や性別の異なるグループから1,822のアイデンティティを持ち、4,723対のキャリブレーションされたRGBとTのイメージを持ち、昼と夜の両方の高次シーンを、閉塞、弱いアライメント、不快な照明条件といった様々な課題でカバーしている。
さらに,全RGBT人物画像対に対して,細粒度7,987のテキスト記述を慎重に注釈する。
RGBT-PEDESの大規模な実験により,本手法は既存の人物検索法より優れていることが示された。
関連論文リスト
- Towards Visual Text Grounding of Multimodal Large Language Model [88.0588924255417]
本稿では,テキストリッチな画像グラウンドのベンチマークを行うための命令データセットを新たに設計した新しいタスクであるTRIGを紹介する。
具体的には,OCR-LLM-ヒューマンインタラクションパイプラインを提案し,800の注釈付き質問応答ペアをベンチマークとして作成する。
提案したベンチマークによる各種MLLMの包括的評価は,テキストリッチな画像上でのグラウンド化能力の大幅な制限を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T12:01:59Z) - TextCrafter: Accurately Rendering Multiple Texts in Complex Visual Scenes [30.947323186487885]
複雑なビジュアルテキスト生成(CVTG)は、視覚画像内の様々な領域に分散した複雑なテキストコンテンツを生成することに焦点を当てている。
InGでは、画像生成モデルはしばしば歪んだ、ぼやけたビジュアルテキストをレンダリングするか、あるいは視覚的なテキストを欠いている。
我々は,新しいマルチビジュアルテキストレンダリング手法であるTextCrafterを提案する。
論文 参考訳(メタデータ) (2025-03-30T14:36:55Z) - TextInVision: Text and Prompt Complexity Driven Visual Text Generation Benchmark [61.412934963260724]
既存の拡散ベースのテキスト・ツー・イメージモデルは、しばしば画像に正確にテキストを埋め込むのに苦労する。
本研究では,画像に視覚テキストを統合する拡散モデルの有効性を評価するために,大規模で,かつ,迅速な複雑性駆動型ベンチマークであるTextInVisionを紹介する。
論文 参考訳(メタデータ) (2025-03-17T21:36:31Z) - Beyond Walking: A Large-Scale Image-Text Benchmark for Text-based Person Anomaly Search [25.907668574771705]
そこで本研究では,日常的・異常な活動に従事する歩行者をテキストで検索するタスクを提案する。
このタスクのトレーニングと評価を可能にするため,大規模画像テキストによる歩行者異常行動ベンチマークを構築した。
我々は、人物のポーズパターンをアイデンティティベースのハード・ネガティブ・ペア・サンプリングと統合するクロスモーダル・ポーズ・アウェア・フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-26T09:50:15Z) - Unified Text-to-Image Generation and Retrieval [96.72318842152148]
MLLM(Multimodal Large Language Models)の文脈における統一フレームワークを提案する。
まず,MLLMの内在的識別能力について検討し,学習自由な方法で検索を行うための生成的検索手法を提案する。
次に、自動回帰生成方式で生成と検索を統一し、生成した画像と検索した画像の最も適合した画像を選択する自律的決定モジュールを提案する。
論文 参考訳(メタデータ) (2024-06-09T15:00:28Z) - TextCoT: Zoom In for Enhanced Multimodal Text-Rich Image Understanding [91.30065932213758]
大規模マルチモーダルモデル(LMM)は、その顕著な推論能力を活用することを目的とした研究の急増を引き起こした。
テキストリッチな画像理解のための新しいChain-of-ThoughtフレームワークであるTextCoTを提案する。
私たちのメソッドは追加のトレーニングが不要で、即時プラグアンドプレイ機能を提供します。
論文 参考訳(メタデータ) (2024-04-15T13:54:35Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - Towards Improving Document Understanding: An Exploration on
Text-Grounding via MLLMs [96.54224331778195]
本稿では,画像中のテキストの空間的位置を識別し,MLLMを強化したテキストグラウンド文書理解モデルTGDocを提案する。
我々は,テキスト検出,認識,スポッティングなどの命令チューニングタスクを定式化し,視覚エンコーダと大言語モデルとの密接なアライメントを容易にする。
提案手法は,複数のテキストリッチベンチマークにまたがる最先端性能を実現し,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-11-22T06:46:37Z) - Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [12.057465578064345]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。
本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z) - Efficient Token-Guided Image-Text Retrieval with Consistent Multimodal
Contrastive Training [33.78990448307792]
画像テキスト検索は、視覚と言語間の意味的関係を理解するための中心的な問題である。
以前の作品では、全体像とテキストの粗い粒度の表現を単に学習するか、画像領域またはピクセルとテキストワードの対応を精巧に確立する。
本研究では、粗い表現学習ときめ細かい表現学習を統一した枠組みに組み合わせて、新しい視点から画像テキストの検索を行う。
論文 参考訳(メタデータ) (2023-06-15T00:19:13Z) - Image-Specific Information Suppression and Implicit Local Alignment for
Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。
既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。
TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文 参考訳(メタデータ) (2022-08-30T16:14:18Z) - Text-based Person Search in Full Images via Semantic-Driven Proposal
Generation [42.25611020956918]
本稿では,歩行者検出,識別,視覚意味的特徴埋め込みタスクを協調的に最適化するエンドツーエンド学習フレームワークを提案する。
クエリテキストを最大限に活用するために、セマンティック機能を活用して、リージョン提案ネットワークにテキスト記述された提案にもっと注意を払うように指示する。
論文 参考訳(メタデータ) (2021-09-27T11:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。