論文の概要: Cross-modal Local Shortest Path and Global Enhancement for
Visible-Thermal Person Re-Identification
- arxiv url: http://arxiv.org/abs/2206.04401v1
- Date: Thu, 9 Jun 2022 10:27:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 14:03:00.530400
- Title: Cross-modal Local Shortest Path and Global Enhancement for
Visible-Thermal Person Re-Identification
- Title(参考訳): 可視的熱的人物再同定のためのクロスモーダル局所短経路とグローバルエンハンスメント
- Authors: Xiaohong Wang and Chaoqi Li and Xiangcai Ma
- Abstract要約: 本稿では,局所的特徴とグローバル的特徴の同時学習に基づく2ストリームネットワークであるCM-LSP-GE(Cross-modal Local Shortest Path and Global Enhancement)モジュールを提案する。
2つの典型的なデータセットの実験結果は、我々のモデルは明らかに最先端の手法よりも優れていることを示している。
- 参考スコア(独自算出の注目度): 2.294635424666456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In addition to considering the recognition difficulty caused by human posture
and occlusion, it is also necessary to solve the modal differences caused by
different imaging systems in the Visible-Thermal cross-modal person
re-identification (VT-ReID) task. In this paper,we propose the Cross-modal
Local Shortest Path and Global Enhancement (CM-LSP-GE) modules,a two-stream
network based on joint learning of local and global features. The core idea of
our paper is to use local feature alignment to solve occlusion problem, and to
solve modal difference by strengthening global feature. Firstly,
Attention-based two-stream ResNet network is designed to extract dual-modality
features and map to a unified feature space. Then, to solve the cross-modal
person pose and occlusion problems, the image are cut horizontally into several
equal parts to obtain local features and the shortest path in local features
between two graphs is used to achieve the fine-grained local feature alignment.
Thirdly, a batch normalization enhancement module applies global features to
enhance strategy, resulting in difference enhancement between different
classes. The multi granularity loss fusion strategy further improves the
performance of the algorithm. Finally, joint learning mechanism of local and
global features is used to improve cross-modal person re-identification
accuracy. The experimental results on two typical datasets show that our model
is obviously superior to the most state-of-the-art methods. Especially, on
SYSU-MM01 datasets, our model can achieve a gain of 2.89%and 7.96% in all
search term of Rank-1 and mAP. The source code will be released soon.
- Abstract(参考訳): また,人間の姿勢や咬合による認識難しさも考慮し,可視・熱横断型人物再同定(vt-reid)課題における画像システムの違いによるモーダル差も解決する必要がある。
本稿では,局所的およびグローバル的特徴の合同学習に基づく2ストリームネットワークであるcm-lsp-ge(cross-modal local shortest path and global enhancement)モジュールを提案する。
本論文の中核となる考え方は, 局所的特徴アライメントを用いてオクルージョン問題を解決することであり, グローバル特徴の強化によるモーダル差の解消である。
まず、注意に基づく2ストリームのresnetネットワークは、デュアルモダリティ機能を抽出し、統一された機能空間にマップするように設計されている。
そして、クロスモーダルな人物のポーズやオクルージョンの問題を解決するために、画像を水平に複数の等分して局所的特徴を得るとともに、2つのグラフ間の局所的特徴の最も短い経路を用いて微細な局所的特徴アライメントを実現する。
第3に、バッチ正規化拡張モジュールは、戦略を強化するためにグローバル機能を適用し、異なるクラス間の差分拡張をもたらす。
多粒度損失融合戦略はアルゴリズムの性能をさらに向上させる。
最後に、地域的特徴とグローバル的特徴の合同学習機構を用いて、個人再同定精度を向上させる。
2つの典型的なデータセットの実験結果は、我々のモデルは明らかに最先端の手法よりも優れていることを示している。
特に、SYSU-MM01データセットでは、ランク1とmAPの全検索項で2.89%と7.96%のゲインが得られる。
ソースコードはまもなくリリースされる予定だ。
関連論文リスト
- Siamese Transformer Networks for Few-shot Image Classification [9.55588609556447]
人間は視覚分類タスクにおいて顕著な熟練度を示し、最小限の例で新しい画像を正確に認識し分類する。
既存の少数の画像分類手法は、大域的特徴と局所的特徴の両方を強調し、両者を統合することを考える研究はほとんどない。
我々は,シームズ変圧器ネットワーク(STN)に基づく新しいアプローチを提案する。
我々の戦略は, 複雑な特徴適応モジュールの必要性を回避し, 画像分類におけるグローバルな特徴と局所的な特徴の可能性を効果的に活用する。
論文 参考訳(メタデータ) (2024-07-16T14:27:23Z) - DETR Doesn't Need Multi-Scale or Locality Design [69.56292005230185]
本稿では,"プレーン"特性を維持できる改良型DETR検出器を提案する。
特定の局所性制約を伴わずに、単一スケールの機能マップとグローバルなクロスアテンション計算を使用する。
マルチスケールな特徴マップと局所性制約の欠如を補うために,2つの単純な技術が平易な設計において驚くほど効果的であることを示す。
論文 参考訳(メタデータ) (2023-08-03T17:59:04Z) - PointCMC: Cross-Modal Multi-Scale Correspondences Learning for Point
Cloud Understanding [0.875967561330372]
自己教師付きポイントクラウド表現学習のためのマルチスケール対応をモダリティ間でモデル化するクロスモーダル手法
ポイントCMCは,(1) 局所的局所幾何学的特徴を最適化して局所的対応を学習する局所的-局所的(L2L)モジュール,(2) 局所的-グローバル的(L2G)モジュール,(3) 局所的-グローバル的(G2G)モジュール,(3) 局所的雲と画像間の協調的大域的コントラスト損失を利用して高レベルの意味的対応を学習するグローバル的(G2G)モジュールから構成される。
論文 参考訳(メタデータ) (2022-11-22T06:08:43Z) - Memory-augmented Deep Unfolding Network for Guided Image
Super-resolution [67.83489239124557]
誘導画像超解像(GISR)は、HR画像の誘導の下で低解像度(LR)目標画像の空間分解能を高めて高解像度(HR)目標画像を得る。
従来のモデルベース手法は主に画像全体を取り、HR目標画像とHRガイダンス画像との事前分布を仮定する。
HR目標画像上で2種類の事前性を持つGISRの最大後部(MAP)推定モデルを提案する。
論文 参考訳(メタデータ) (2022-02-12T15:37:13Z) - MSO: Multi-Feature Space Joint Optimization Network for RGB-Infrared
Person Re-Identification [35.97494894205023]
RGB-infrared cross-modality person re-identification (ReID) タスクは、可視モダリティと赤外線モダリティの同一性の画像を認識することを目的としている。
既存の手法は主に2ストリームアーキテクチャを使用して、最終的な共通特徴空間における2つのモード間の相違を取り除く。
単一モダリティ空間と共通空間の両方において、モダリティ調和可能な特徴を学習できる新しい多機能空間共同最適化(MSO)ネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-21T16:45:23Z) - Video Salient Object Detection via Adaptive Local-Global Refinement [7.723369608197167]
ビデオ・サリエント・オブジェクト検出(VSOD)は多くの視覚アプリケーションにおいて重要な課題である。
vsodのための適応型局所的グローバルリファインメントフレームワークを提案する。
重み付け手法は特徴相関を更に活用し,ネットワークにより識別的な特徴表現を学習させることができることを示す。
論文 参考訳(メタデータ) (2021-04-29T14:14:11Z) - DF^2AM: Dual-level Feature Fusion and Affinity Modeling for RGB-Infrared
Cross-modality Person Re-identification [18.152310122348393]
RGB-赤外線による人物再識別は、クラス内変異とモダリティの相違が原因で難しい課題である。
我々は,局所的・グローバル的特徴融合(df2)モジュールを,局所的特徴とグローバル的特徴の区別に着目して提案する。
人物画像からグローバルな特徴間の関係をさらに掘り下げるために,親和性モデリング(AM)モジュールを提案する。
論文 参考訳(メタデータ) (2021-04-01T03:12:56Z) - Watching You: Global-guided Reciprocal Learning for Video-based Person
Re-identification [82.6971648465279]
映像に基づくRe-IDのための新しいグローバルガイド相互学習フレームワークを提案する。
我々のアプローチは他の最先端のアプローチよりも優れたパフォーマンスを達成できます。
論文 参考訳(メタデータ) (2021-03-07T12:27:42Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - Cross-Domain Facial Expression Recognition: A Unified Evaluation
Benchmark and Adversarial Graph Learning [85.6386289476598]
我々は,クロスドメイン全体的特徴共適応のための新しい逆グラフ表現適応(AGRA)フレームワークを開発した。
我々は,いくつかの一般的なベンチマークで広範囲かつ公平な評価を行い,提案したAGRAフレームワークが従来の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-08-03T15:00:31Z) - Dense Residual Network: Enhancing Global Dense Feature Flow for
Character Recognition [75.4027660840568]
本稿では,すべての畳み込み層から階層的特徴をフルに活用することにより,局所的・大域的特徴フローを改善する方法について検討する。
技術的には、テキスト認識のための効率的で効果的なCNNフレームワークであるFDRN(Fast Dense Residual Network)を提案する。
論文 参考訳(メタデータ) (2020-01-23T06:55:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。