論文の概要: Transformer-Based Person Search with High-Frequency Augmentation and Multi-Wave Mixing
- arxiv url: http://arxiv.org/abs/2506.23202v1
- Date: Sun, 29 Jun 2025 12:08:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.771047
- Title: Transformer-Based Person Search with High-Frequency Augmentation and Multi-Wave Mixing
- Title(参考訳): 高周波増幅とマルチウェーブミキシングを用いたトランスフォーマーによる人物探索
- Authors: Qilin Shu, Qixian Zhang, Qi Zhang, Hongyun Zhang, Duoqian Miao, Cairong Zhao,
- Abstract要約: 人物探索のための新しい高周波増幅・マルチウェーブ混合法を提案する。
HamWは変圧器の識別的特徴抽出能力を高めるように設計されている。
HamWはCUHK-SYSUデータセットとPRWデータセットの両方で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 18.871765626140782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The person search task aims to locate a target person within a set of scene images. In recent years, transformer-based models in this field have made some progress. However, they still face three primary challenges: 1) the self-attention mechanism tends to suppress high-frequency components in the features, which severely impacts model performance; 2) the computational cost of transformers is relatively high. To address these issues, we propose a novel High-frequency Augmentation and Multi-Wave mixing (HAMW) method for person search. HAMW is designed to enhance the discriminative feature extraction capabilities of transformers while reducing computational overhead and improving efficiency. Specifically, we develop a three-stage framework that progressively optimizes both detection and re-identification performance. Our model enhances the perception of high-frequency features by learning from augmented inputs containing additional high-frequency components. Furthermore, we replace the self-attention layers in the transformer with a strategy based on multi-level Haar wavelet fusion to capture multi-scale features. This not only lowers the computational complexity but also alleviates the suppression of high-frequency features and enhances the ability to exploit multi-scale information. Extensive experiments demonstrate that HAMW achieves state-of-the-art performance on both the CUHK-SYSU and PRW datasets.
- Abstract(参考訳): 人物検索タスクは、対象人物をシーンイメージのセット内に配置することを目的としている。
近年、この分野ではトランスフォーマーベースのモデルが進歩している。
しかし、それらはまだ3つの大きな課題に直面している。
1)自己注意機構は,特徴の高周波成分を抑制する傾向にあり,モデル性能に重大な影響を及ぼす。
2) 変圧器の計算コストは比較的高い。
これらの課題に対処するために,人物探索のための新しい高周波増幅・マルチウェーブ混合法を提案する。
HAMWは, 計算オーバーヘッドを低減し, 効率を向上させるとともに, 変圧器の識別的特徴抽出能力を向上させるように設計されている。
具体的には,検出性能と再識別性能の両方を段階的に最適化する3段階フレームワークを開発する。
本モデルは,高周波成分を付加した拡張入力から学習することで,高周波特徴の知覚を高める。
さらに,マルチレベルハールウェーブレット融合によるマルチスケール特徴の捕捉戦略により,変換器内の自己保持層を置き換える。
これは計算複雑性を低下させるだけでなく、高周波特性の抑制を緩和し、マルチスケール情報を活用する能力を高める。
大規模な実験により、HAMWはCUHK-SYSUデータセットとPRWデータセットの両方で最先端のパフォーマンスを達成した。
関連論文リスト
- FADPNet: Frequency-Aware Dual-Path Network for Face Super-Resolution [70.61549422952193]
計算コストの制限による顔超解像(FSR)は未解決の問題である。
既存のアプローチでは、全ての顔のピクセルを等しく扱い、計算資源を最適以下に割り当てる。
本稿では、低周波成分と高周波成分に顔の特徴を分解する周波数対応デュアルパスネットワークであるFADPNetを提案する。
論文 参考訳(メタデータ) (2025-06-17T02:33:42Z) - FEAT: Full-Dimensional Efficient Attention Transformer for Medical Video Generation [14.903360987684483]
高品質なダイナミック・メディカル・ビデオのためのフル次元能動的アテンション・トランスフォーマであるFEATを提案する。
FEAT-Sは、最先端モデルのEndoraのパラメータのわずか23%しか持たないが、同等またはそれ以上の性能を発揮することを示した。
論文 参考訳(メタデータ) (2025-06-05T12:31:02Z) - Frequency-aware Feature Fusion for Dense Image Prediction [99.85757278772262]
本稿では,高密度画像予測のための周波数認識機能融合(FreqFusion)を提案する。
FreqFusionは、Adaptive Low-Pass Filter (ALPF) ジェネレータ、オフセットジェネレータ、Adaptive High-Pass Filter (AHPF) ジェネレータを統合する。
包括的可視化と定量的分析は、FreqFusionが機能一貫性を効果的に改善し、オブジェクト境界を鋭くすることを示している。
論文 参考訳(メタデータ) (2024-08-23T07:30:34Z) - Efficient Diffusion Transformer with Step-wise Dynamic Attention Mediators [83.48423407316713]
本稿では,クエリとキーを別々に扱うために,追加の仲介者トークンを組み込んだ新しい拡散トランスフォーマーフレームワークを提案する。
本モデルでは, 正確な非曖昧な段階を呈し, 詳細に富んだ段階へと徐々に遷移する。
本手法は,最近のSiTと統合した場合に,最先端のFIDスコア2.01を達成する。
論文 参考訳(メタデータ) (2024-08-11T07:01:39Z) - Exploring Frequency-Inspired Optimization in Transformer for Efficient Single Image Super-Resolution [32.29219284419944]
クロスリファインメント適応型特徴変調トランス(CRAFT)
CRAFTの効率向上を目的とした周波数誘導後量子化(PTQ)手法を提案する。
以上の結果より, CRAFTは現状の方法よりも優れていることが示唆された。
論文 参考訳(メタデータ) (2023-08-09T15:38:36Z) - Inception Transformer [151.939077819196]
インセプショントランスフォーマー(iFormer)は、視覚データ中の高周波数情報と低周波情報の両方で包括的特徴を学習する。
我々は、iFormerを一連の視覚タスクでベンチマークし、画像分類、COCO検出、ADE20Kセグメンテーションにおいて優れた性能を発揮することを示した。
論文 参考訳(メタデータ) (2022-05-25T17:59:54Z) - FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization [73.41395947275473]
本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。
3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
論文 参考訳(メタデータ) (2022-03-24T07:26:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。