論文の概要: Cross-Spectral Body Recognition with Side Information Embedding: Benchmarks on LLCM and Analyzing Range-Induced Occlusions on IJB-MDF
- arxiv url: http://arxiv.org/abs/2506.08953v1
- Date: Tue, 10 Jun 2025 16:20:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.857678
- Title: Cross-Spectral Body Recognition with Side Information Embedding: Benchmarks on LLCM and Analyzing Range-Induced Occlusions on IJB-MDF
- Title(参考訳): サイド情報埋め込みを用いたクロススペクトルボディ認識:LLCMのベンチマークとIJB-MDFのレンジ誘発咬合の分析
- Authors: Anirudh Nanduri, Siyuan Huang, Rama Chellappa,
- Abstract要約: ViT(Vision Transformers)は、顔や身体の認識を含む幅広い生体計測タスクにおいて、印象的なパフォーマンスを誇示している。
本研究では、視認性(VIS)画像に事前訓練されたVTモデルを、クロススペクトル体認識の難しい問題に適用する。
このアイデアに基づいて、我々はSide Information Embedding (SIE)を統合し、ドメインとカメラ情報のエンコーディングの影響を調べ、スペクトル間マッチングを強化する。
驚くべきことに、我々の結果は、ドメイン情報を明示的に組み込むことなく、カメラ情報のみを符号化することで、LLCMデータセット上で最先端のパフォーマンスが得られることを示している。
- 参考スコア(独自算出の注目度): 51.36007967653781
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViTs) have demonstrated impressive performance across a wide range of biometric tasks, including face and body recognition. In this work, we adapt a ViT model pretrained on visible (VIS) imagery to the challenging problem of cross-spectral body recognition, which involves matching images captured in the visible and infrared (IR) domains. Recent ViT architectures have explored incorporating additional embeddings beyond traditional positional embeddings. Building on this idea, we integrate Side Information Embedding (SIE) and examine the impact of encoding domain and camera information to enhance cross-spectral matching. Surprisingly, our results show that encoding only camera information - without explicitly incorporating domain information - achieves state-of-the-art performance on the LLCM dataset. While occlusion handling has been extensively studied in visible-spectrum person re-identification (Re-ID), occlusions in visible-infrared (VI) Re-ID remain largely underexplored - primarily because existing VI-ReID datasets, such as LLCM, SYSU-MM01, and RegDB, predominantly feature full-body, unoccluded images. To address this gap, we analyze the impact of range-induced occlusions using the IARPA Janus Benchmark Multi-Domain Face (IJB-MDF) dataset, which provides a diverse set of visible and infrared images captured at various distances, enabling cross-range, cross-spectral evaluations.
- Abstract(参考訳): ViT(Vision Transformers)は、顔や身体の認識を含む幅広い生体計測タスクにおいて、印象的なパフォーマンスを誇示している。
本研究では、視認性(VIS)画像に事前訓練されたViTモデルを、可視・赤外領域で撮影された画像のマッチングを含む、クロススペクトル体認識の難しい問題に適用する。
近年のViTアーキテクチャでは、従来の位置埋め込みを超えて追加の埋め込みを組み込むことが検討されている。
このアイデアに基づいて、我々はSide Information Embedding (SIE)を統合し、ドメインとカメラ情報のエンコーディングの影響を調べ、スペクトル間マッチングを強化する。
驚くべきことに、我々の結果は、ドメイン情報を明示的に組み込むことなく、カメラ情報のみを符号化することで、LLCMデータセット上で最先端のパフォーマンスが得られることを示している。
可視光人物再識別(Re-ID)では、オクルージョンハンドリングが広く研究されているが、可視赤外線(VI) Re-IDのオクルージョンは、主に既存のVI-ReIDデータセットであるLLCM、SYSU-MM01、RegDBなど、主にフルボディで非閉塞な画像を特徴とする。
このギャップに対処するために, IARPA Janus Benchmark Multi-Domain Face (IJB-MDF) データセットを用いて, 様々な距離で捉えた多様な可視・赤外画像の集合を提供し, クロスレンジ, クロススペクトル評価を可能にする。
関連論文リスト
- AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [58.67129770371016]
シーン認識最適化のためのテキストメタデータを組み込むことにより、IRSTDパラダイムを再定義する新しいIRSTDフレームワークを提案する。
AuxDetは最先端の手法を一貫して上回り、堅牢性と正確性を改善する上で補助情報の重要な役割を検証している。
論文 参考訳(メタデータ) (2025-05-21T07:02:05Z) - Multi-Domain Biometric Recognition using Body Embeddings [51.36007967653781]
身体埋め込みは中波長赤外線(MWIR)領域と長波長赤外線(LWIR)領域の顔埋め込みよりも優れていた。
我々は、IJB-MDFデータセット上でのベンチマーク結果を確立するために、ビジョントランスフォーマーアーキテクチャを活用している。
また, クロスエントロピーとトリプルト損失の単純な組み合わせで, VISデータにのみ事前訓練された体モデルを微調整することで, 最先端のmAPスコアが得られることを示す。
論文 参考訳(メタデータ) (2025-03-13T22:38:18Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - SA-DNet: A on-demand semantic object registration network adapting to
non-rigid deformation [3.3843451892622576]
本稿では,特徴マッチング処理を関心のある意味領域に限定するセマンティック・アウェア・オン・デマンド登録ネットワーク(SA-DNet)を提案する。
本手法は,画像中の非剛性歪みの存在に適応し,意味的によく登録された画像を提供する。
論文 参考訳(メタデータ) (2022-10-18T14:41:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。