論文の概要: ProtoHPE: Prototype-guided High-frequency Patch Enhancement for
Visible-Infrared Person Re-identification
- arxiv url: http://arxiv.org/abs/2310.07552v1
- Date: Wed, 11 Oct 2023 14:54:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 22:19:50.297294
- Title: ProtoHPE: Prototype-guided High-frequency Patch Enhancement for
Visible-Infrared Person Re-identification
- Title(参考訳): プロトHPE:可視赤外線再同定のためのプロトタイプ誘導高周波パッチ強調
- Authors: Guiwei Zhang and Yongfei Zhang and Zichang Tan
- Abstract要約: クロスモーダル相関した高周波成分は、全体像よりも波長、ポーズ、背景クラッタなどの変動の影響を受けない。
我々は2つのコア設計によるtextbf Prototype-guided textbf High- frequency textbfPatch textbfEnhancement (ProtoHPE) を提案する。
- 参考スコア(独自算出の注目度): 16.634909655008254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visible-infrared person re-identification is challenging due to the large
modality gap. To bridge the gap, most studies heavily rely on the correlation
of visible-infrared holistic person images, which may perform poorly under
severe distribution shifts. In contrast, we find that some cross-modal
correlated high-frequency components contain discriminative visual patterns and
are less affected by variations such as wavelength, pose, and background
clutter than holistic images. Therefore, we are motivated to bridge the
modality gap based on such high-frequency components, and propose
\textbf{Proto}type-guided \textbf{H}igh-frequency \textbf{P}atch
\textbf{E}nhancement (ProtoHPE) with two core designs. \textbf{First}, to
enhance the representation ability of cross-modal correlated high-frequency
components, we split patches with such components by Wavelet Transform and
exponential moving average Vision Transformer (ViT), then empower ViT to take
the split patches as auxiliary input. \textbf{Second}, to obtain semantically
compact and discriminative high-frequency representations of the same identity,
we propose Multimodal Prototypical Contrast. To be specific, it hierarchically
captures the comprehensive semantics of different modal instances, facilitating
the aggregation of high-frequency representations belonging to the same
identity. With it, ViT can capture key high-frequency components during
inference without relying on ProtoHPE, thus bringing no extra complexity.
Extensive experiments validate the effectiveness of ProtoHPE.
- Abstract(参考訳): 可視赤外人物の再識別は、大きなモダリティギャップのために困難である。
このギャップを埋めるために、ほとんどの研究は視界と赤外線の全体像の相関に大きく依存している。
対照的に, クロスモーダル相関高周波数成分の中には識別可能な視覚パターンが含まれており, 波長, ポーズ, 背景クラッタといった変動の影響が, 全体像よりも少ないことが判明した。
したがって、そのような高周波成分に基づいてモダリティギャップを橋渡しし、二つのコア設計を持つ \textbf{proto}type-guided \textbf{h}igh-frequency \textbf{p}atch \textbf{e}nhancement (protohpe) を提案する。
クロスモーダル相関高周波成分の表現能力を高めるために、ウェーブレット変換と指数移動平均視覚変換(vit)によってパッチを分割し、vitに補助入力として分割パッチを取る権限を与える。
意味的にコンパクトで識別可能な同一アイデンティティの高周波表現を得るために,マルチモーダル・プロトタイプ・コントラストを提案する。
具体的には、異なるモードインスタンスの包括的なセマンティクスを階層的にキャプチャし、同じアイデンティティに属する高周波表現の集約を容易にする。
これによってViTは、ProtoHPEに頼ることなく、推論中に重要な高周波コンポーネントをキャプチャできる。
広範な実験がprotohpeの有効性を検証する。
関連論文リスト
- Prototype-Driven Multi-Feature Generation for Visible-Infrared Person Re-identification [11.664820595258988]
可視的(視覚)画像と赤外線(赤外線)画像の違いから、可視的(赤外線)人物の再識別における主な課題が生じる。
既存の手法は、しばしば水平分割に頼って部分レベルの特徴を整列させ、不正確性を導入する。
クロスモーダルな相違を緩和することを目的としたPDM(Prototype-Driven Multi-Feature Generation framework)を提案する。
論文 参考訳(メタデータ) (2024-09-09T14:12:23Z) - Frequency Domain Modality-invariant Feature Learning for
Visible-infrared Person Re-Identification [79.9402521412239]
本稿では、周波数領域から見たモダリティの相違を低減するために、新しい周波数領域モダリティ不変特徴学習フレームワーク(FDMNet)を提案する。
我々のフレームワークでは、インスタンス適応振幅フィルタ(IAF)とPhrase-Preserving Normalization(PPNorm)という、2つの新しいモジュールを導入している。
論文 参考訳(メタデータ) (2024-01-03T17:11:27Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Cross-modal Orthogonal High-rank Augmentation for RGB-Event
Transformer-trackers [58.802352477207094]
本研究では,2つのモード間の分布ギャップを埋めるために,事前学習された視覚変換器(ViT)の潜在可能性を探る。
本研究では,いくつかのトークンの特定のモダリティをランダムにマスキングし,異なるモダリティのトークン間の相互作用を積極的に行うマスクモデリング戦略を提案する。
実験により,我々のプラグアンドプレイトレーニング強化技術は,追跡精度と成功率の両方の観点から,最先端のワンストリームと2つのトラッカーストリームを大幅に向上させることができることが示された。
論文 参考訳(メタデータ) (2023-07-09T08:58:47Z) - Unsupervised Misaligned Infrared and Visible Image Fusion via
Cross-Modality Image Generation and Registration [59.02821429555375]
我々は、教師なし不整合赤外線と可視画像融合のための頑健な相互モダリティ生成登録パラダイムを提案する。
登録された赤外線画像と可視画像とを融合させるため,IFM (Feature Interaction Fusion Module) を提案する。
論文 参考訳(メタデータ) (2022-05-24T07:51:57Z) - TFill: Image Completion via a Transformer-Based Architecture [69.62228639870114]
画像補完を無方向性シーケンス対シーケンス予測タスクとして扱うことを提案する。
トークン表現には,小かつ重複しないRFを持つ制限型CNNを用いる。
第2フェーズでは、可視領域と発生領域の外観整合性を向上させるために、新しい注意認識層(aal)を導入する。
論文 参考訳(メタデータ) (2021-04-02T01:42:01Z) - Generalizing Face Forgery Detection with High-frequency Features [63.33397573649408]
現在のCNNベースの検出器は、メソッド固有の色テクスチャに過度に適合するため、一般化に失敗する傾向にある。
フェースフォージェリ検出に高周波雑音を用いることを提案する。
1つは、複数のスケールで高周波ノイズを抽出するマルチスケールの高周波特徴抽出モジュールである。
2つ目は、低レベルRGB特徴抽出器を導く残差誘導空間注意モジュールで、新しい視点からフォージェリートレースにもっと集中する。
論文 参考訳(メタデータ) (2021-03-23T08:19:21Z) - Are High-Frequency Components Beneficial for Training of Generative
Adversarial Networks [11.226288436817956]
GAN(Generative Adversarial Networks)は、実際の画像と視覚的に区別できない現実的な画像を生成する能力を持つ。
画像スペクトルの最近の研究は、生成画像と実画像が高周波で有意な差を持つことを示した。
GAN訓練における高周波差を除去する2つの前処理手法を提案する。
論文 参考訳(メタデータ) (2021-03-20T04:37:06Z) - SFANet: A Spectrum-aware Feature Augmentation Network for
Visible-Infrared Person Re-Identification [12.566284647658053]
クロスモダリティマッチング問題に対するSFANetという新しいスペクトル認識特徴量化ネットワークを提案する。
grayscale-spectrumイメージで学習すると、モダリティの不一致を低減し、内部構造関係を検出することができる。
特徴レベルでは、特定および粉砕可能な畳み込みブロックの数のバランスをとることにより、従来の2ストリームネットワークを改善します。
論文 参考訳(メタデータ) (2021-02-24T08:57:32Z) - Multi-Scale Cascading Network with Compact Feature Learning for
RGB-Infrared Person Re-Identification [35.55895776505113]
マルチスケールパートアウェアカスケードフレームワーク(MSPAC)は、マルチスケールの細かい機能を部分からグローバルに集約することによって策定されます。
したがって、クロスモダリティ相関は、特徴的モダリティ不変な特徴学習のための顕著な特徴を効率的に探索することができる。
論文 参考訳(メタデータ) (2020-12-12T15:39:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。