論文の概要: Unity is Strength: Unifying Convolutional and Transformeral Features for Better Person Re-Identification
- arxiv url: http://arxiv.org/abs/2412.17239v1
- Date: Mon, 23 Dec 2024 03:19:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:59:58.842536
- Title: Unity is Strength: Unifying Convolutional and Transformeral Features for Better Person Re-Identification
- Title(参考訳): ユニティは強み:より良い人物再同定のための進化的特徴と変換的特徴を統一する
- Authors: Yuhao Wang, Pingping Zhang, Xuehu Liu, Zhengzheng Tu, Huchuan Lu,
- Abstract要約: 人物再識別(ReID)は、重複しないカメラを通して特定の人物を回収することを目的としている。
画像に基づく人物ReIDのためのCNNとトランスフォーマーの強みを統合するために,FusionReIDと呼ばれる新しい融合フレームワークを提案する。
- 参考スコア(独自算出の注目度): 60.9670254833103
- License:
- Abstract: Person Re-identification (ReID) aims to retrieve the specific person across non-overlapping cameras, which greatly helps intelligent transportation systems. As we all know, Convolutional Neural Networks (CNNs) and Transformers have the unique strengths to extract local and global features, respectively. Considering this fact, we focus on the mutual fusion between them to learn more comprehensive representations for persons. In particular, we utilize the complementary integration of deep features from different model structures. We propose a novel fusion framework called FusionReID to unify the strengths of CNNs and Transformers for image-based person ReID. More specifically, we first deploy a Dual-branch Feature Extraction (DFE) to extract features through CNNs and Transformers from a single image. Moreover, we design a novel Dual-attention Mutual Fusion (DMF) to achieve sufficient feature fusions. The DMF comprises Local Refinement Units (LRU) and Heterogenous Transmission Modules (HTM). LRU utilizes depth-separable convolutions to align deep features in channel dimensions and spatial sizes. HTM consists of a Shared Encoding Unit (SEU) and two Mutual Fusion Units (MFU). Through the continuous stacking of HTM, deep features after LRU are repeatedly utilized to generate more discriminative features. Extensive experiments on three public ReID benchmarks demonstrate that our method can attain superior performances than most state-of-the-arts. The source code is available at https://github.com/924973292/FusionReID.
- Abstract(参考訳): 人物再識別(ReID)は、重複しないカメラを介して特定の人物を回収することを目的としており、インテリジェントな交通システムに大いに役立つ。
誰もが知っているように、畳み込みニューラルネットワーク(CNN)とトランスフォーマーには、それぞれ、局所的特徴とグローバル的特徴を抽出する独自の長所があります。
この事実を考慮すると、より包括的な表現を学ぶために、両者の相互融合に焦点を当てる。
特に、異なるモデル構造からの深い特徴の相補的な統合を利用する。
画像に基づく人物ReIDのためのCNNとトランスフォーマーの強みを統合するために,FusionReIDと呼ばれる新しい融合フレームワークを提案する。
具体的には、まずDFE(Dual-branch Feature extract)をデプロイし、単一のイメージからCNNやTransformerを通じて特徴を抽出する。
さらに, 十分な特徴融合を実現するために, DMF (Dual-attention Mutual Fusion) を新たに設計した。
DMFはLRU(Local Refinement Units)とHTM(Heterogenous Transmission Modules)から構成される。
LRUは、深さ分離可能な畳み込みを利用して、チャネル次元と空間サイズにおける深い特徴を整列する。
HTMは共有符号化ユニット(SEU)と2つの相互融合ユニット(MFU)で構成されている。
HTMの連続的な積み重ねにより、LRU後の深い特徴を繰り返し利用してより識別的な特徴を生成する。
3つの公開ReIDベンチマークの大規模な実験により、我々の手法は、ほとんどの最先端技術よりも優れた性能が得られることを示した。
ソースコードはhttps://github.com/924973292/FusionReIDで入手できる。
関連論文リスト
- CTRL-F: Pairing Convolution with Transformer for Image Classification via Multi-Level Feature Cross-Attention and Representation Learning Fusion [0.0]
コンボリューションとトランスフォーマーを組み合わせた,軽量なハイブリッドネットワークを提案する。
畳み込み経路から取得した局所応答とMFCAモジュールから取得したグローバル応答とを融合する。
実験により、我々の変種は、大規模データや低データレギュレーションでスクラッチからトレーニングしたとしても、最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-07-09T08:47:13Z) - Retain, Blend, and Exchange: A Quality-aware Spatial-Stereo Fusion Approach for Event Stream Recognition [57.74076383449153]
本稿では,差分融合によるイベントストリームに基づくパターン認識のための新しいデュアルストリームフレームワークEFV++を提案する。
イベントイメージとイベントボクセルという2つの共通のイベント表現を同時にモデル化する。
Bullying10kデータセットで新しい最先端のパフォーマンス、すなわち90.51%$を達成し、2位を+2.21%$で上回る。
論文 参考訳(メタデータ) (2024-06-27T02:32:46Z) - Fusion-Mamba for Cross-modality Object Detection [63.56296480951342]
異なるモダリティから情報を融合するクロスモダリティは、オブジェクト検出性能を効果的に向上させる。
We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction。
提案手法は,m3FD$が5.9%,FLIRデータセットが4.9%,m3FD$が5.9%である。
論文 参考訳(メタデータ) (2024-04-14T05:28:46Z) - FusionMamba: Efficient Remote Sensing Image Fusion with State Space Model [35.57157248152558]
現在のディープラーニング(DL)手法は、典型的には、特徴抽出と情報統合のために畳み込みニューラルネットワーク(CNN)またはトランスフォーマーを使用する。
本研究では,効率的なリモートセンシング画像融合法であるFusionMambaを提案する。
論文 参考訳(メタデータ) (2024-04-11T17:29:56Z) - GraFT: Gradual Fusion Transformer for Multimodal Re-Identification [0.8999666725996975]
マルチモーダル ReID のための textbf Gradual Fusion Transformer (GraFT) を導入する。
GraFTは学習可能な融合トークンを使用し、エンコーダ間で自己注意を誘導し、モダリティ固有の特徴とオブジェクト固有の特徴の両方を順応的にキャプチャする。
これらの拡張を広範囲にわたるアブレーション研究を通じて実証し、GraFTが確立されたマルチモーダルReIDベンチマークを一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2023-10-25T00:15:40Z) - Cooperation Learning Enhanced Colonic Polyp Segmentation Based on
Transformer-CNN Fusion [21.6402447417878]
本研究ではFusion-Transformer-HardNetMSEG(Fu-TransHNet)と呼ばれるハイブリッドネットワークを提案する。
Fu-TransHNetは、異なるメカニズムの深層学習を用いて互いに融合し、多視点協調学習技術で強化されている。
実験の結果,Fu-TransHNetネットワークは5つの広く使用されているベンチマークデータセットの既存の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-01-17T13:58:17Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - Image Fusion Transformer [75.71025138448287]
画像融合では、異なるセンサから得られた画像を融合して、情報強化された単一の画像を生成する。
近年,画像融合のための有意義な特徴を符号化するために,最先端の手法で畳み込みニューラルネットワーク(CNN)が採用されている。
我々は,画像融合変換器 (IFT) を提案する。
論文 参考訳(メタデータ) (2021-07-19T16:42:49Z) - HAT: Hierarchical Aggregation Transformers for Person Re-identification [87.02828084991062]
我々は,CNNとトランスフォーマーの両方の利点を,高性能な画像ベース人物Re-IDに適用する。
作業は、画像ベースのRe-IDのためのCNNとTransformerの両方の利点を初めて活用する。
論文 参考訳(メタデータ) (2021-07-13T09:34:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。