論文の概要: How Image Generation Helps Visible-to-Infrared Person Re-Identification?
- arxiv url: http://arxiv.org/abs/2210.01585v1
- Date: Tue, 4 Oct 2022 13:09:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 14:33:00.500667
- Title: How Image Generation Helps Visible-to-Infrared Person Re-Identification?
- Title(参考訳): 可視から赤外への画像認識はどのように役立つのか?
- Authors: Honghu Pan and Yongyong Chen and Yunqi He and Xin Li and Zhenyu He
- Abstract要約: Flow2Flowは、V2Iの人物ReIDのためのトレーニングサンプル拡張とモダリティ間の画像生成を共同で実現するフレームワークである。
生成した画像の同一性アライメントとモダリティアライメントの目的で、Flow2Flowをトレーニングするための対角的トレーニング戦略を開発する。
SYSU-MM01とRegDBの実験結果から、トレーニングサンプル展開とクロスモダリティ画像生成の両方がV2I ReID精度を大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 15.951145523749735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compared to visible-to-visible (V2V) person re-identification (ReID), the
visible-to-infrared (V2I) person ReID task is more challenging due to the lack
of sufficient training samples and the large cross-modality discrepancy.
To this end, we propose Flow2Flow, a unified framework that could jointly
achieve training sample expansion and cross-modality image generation for V2I
person ReID.
Specifically, Flow2Flow learns bijective transformations from both the
visible image domain and the infrared domain to a shared isotropic Gaussian
domain with an invertible visible flow-based generator and an infrared one,
respectively.
With Flow2Flow, we are able to generate pseudo training samples by the
transformation from latent Gaussian noises to visible or infrared images, and
generate cross-modality images by transformations from existing-modality images
to latent Gaussian noises to missing-modality images.
For the purpose of identity alignment and modality alignment of generated
images, we develop adversarial training strategies to train Flow2Flow.
Specifically, we design an image encoder and a modality discriminator for
each modality.
The image encoder encourages the generated images to be similar to real
images of the same identity via identity adversarial training, and the modality
discriminator makes the generated images modal-indistinguishable from real
images via modality adversarial training.
Experimental results on SYSU-MM01 and RegDB demonstrate that both training
sample expansion and cross-modality image generation can significantly improve
V2I ReID accuracy.
- Abstract(参考訳): 可視・可視(V2V)の人物再識別(ReID)と比較すると,十分なトレーニングサンプルの不足や,大規模なモダリティの相違により,可視・赤外線(V2I)の人物ReIDタスクは困難である。
そこで我々は,v2i person reidのサンプル拡張とクロスモダリティ画像生成を共同で実現可能な統一フレームワークflow2flowを提案する。
具体的には、flow2flowは可視画像領域と赤外領域の両方から可逆可視フローベース生成器と赤外領域とで共有等方性ガウス領域への単射変換を学習する。
flow2flowでは、潜在ガウスノイズから可視画像や赤外線画像への変換による擬似トレーニングサンプルの生成と、既存モダリティ画像から潜在ガウスノイズへの変換によるクロスモダリティ画像の生成が可能である。
生成した画像の同一性アライメントとモダリティアライメントの目的で、Flow2Flowをトレーニングするための対角的トレーニング戦略を開発する。
具体的には,モダリティ毎に画像エンコーダとモダリティ判別器を設計する。
画像エンコーダは、同一人物の実際の画像と同一人物のイメージとを同一視することを奨励し、モダリティ判別器は、その生成画像と実画像とを、モダリティ比較訓練により区別可能とする。
SYSU-MM01とRegDBの実験結果から、トレーニングサンプル展開とクロスモダリティ画像生成の両方がV2I ReID精度を大幅に向上することが示された。
関連論文リスト
- DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - Decoupled Diffusion Models: Simultaneous Image to Zero and Zero to Noise [53.04220377034574]
10機能未満の高画質(未条件)の画像生成のためのデカップリング拡散モデル(DDM)を提案する。
我々は,1) 画像から0遷移までをモデル化した解析的遷移確率に基づいて, 学習目標と(2) サンプリング式を逆時間に導出する。
1)無条件画像生成, CIFAR-10, CelebA-HQ-256, 2)超解像, 塩分検出, エッジ検出, 画像入力などの下流処理, テキスト処理, テキスト処理, テキスト処理, テキスト処理, 画像処理, 画像処理などと比較して, 非常に競争力のある性能が得られる。
論文 参考訳(メタデータ) (2023-06-23T18:08:00Z) - Unsupervised Misaligned Infrared and Visible Image Fusion via
Cross-Modality Image Generation and Registration [59.02821429555375]
我々は、教師なし不整合赤外線と可視画像融合のための頑健な相互モダリティ生成登録パラダイムを提案する。
登録された赤外線画像と可視画像とを融合させるため,IFM (Feature Interaction Fusion Module) を提案する。
論文 参考訳(メタデータ) (2022-05-24T07:51:57Z) - Towards Homogeneous Modality Learning and Multi-Granularity Information
Exploration for Visible-Infrared Person Re-Identification [16.22986967958162]
Visible-infrared person re-identification (VI-ReID) は、可視・赤外線カメラビューを介して人物画像の集合を検索することを目的とした、困難かつ必須の課題である。
従来の手法では, GAN (Generative Adversarial Network) を用いて, モーダリティ・コンシデント・データを生成する手法が提案されている。
そこで本研究では、視線外デュアルモード学習をグレーグレー単一モード学習問題として再構成する、統一されたダークラインスペクトルであるAligned Grayscale Modality (AGM)を用いて、モード間マッチング問題に対処する。
論文 参考訳(メタデータ) (2022-04-11T03:03:19Z) - Learning by Aligning: Visible-Infrared Person Re-identification using
Cross-Modal Correspondences [42.16002082436691]
VI-reIDの主な課題は、個人画像間のクラス内変動と、可視画像と赤外線画像の相互差である。
我々はこれらの問題に統一的な方法で対処する新しい特徴学習フレームワークを導入する。
論文 参考訳(メタデータ) (2021-08-17T03:38:51Z) - Diverse Image Inpainting with Bidirectional and Autoregressive
Transformers [55.21000775547243]
新規な双方向自己回帰トランス(BAT)を用いた画像インペインティングフレームワークBAT-Fillを提案する。
BAT-Fillは変換器とCNNの利点を2段階的に継承し、変換器の注意の二次的複雑さに制約されることなく高解像度のコンテンツを生成する。
論文 参考訳(メタデータ) (2021-04-26T03:52:27Z) - IMAGINE: Image Synthesis by Image-Guided Model Inversion [79.4691654458141]
IMGE-Guided Model INvErsion (IMAGINE) と呼ばれるインバージョンベースの手法を導入し、高品質で多様な画像を生成します。
我々は,事前学習した分類器から画像意味論の知識を活用し,妥当な世代を実現する。
IMAGINEは,1)合成中の意味的特異性制約を同時に実施し,2)ジェネレータトレーニングなしでリアルな画像を生成し,3)生成過程を直感的に制御する。
論文 参考訳(メタデータ) (2021-04-13T02:00:24Z) - SFANet: A Spectrum-aware Feature Augmentation Network for
Visible-Infrared Person Re-Identification [12.566284647658053]
クロスモダリティマッチング問題に対するSFANetという新しいスペクトル認識特徴量化ネットワークを提案する。
grayscale-spectrumイメージで学習すると、モダリティの不一致を低減し、内部構造関係を検出することができる。
特徴レベルでは、特定および粉砕可能な畳み込みブロックの数のバランスをとることにより、従来の2ストリームネットワークを改善します。
論文 参考訳(メタデータ) (2021-02-24T08:57:32Z) - Self-Supervised Linear Motion Deblurring [112.75317069916579]
深層畳み込みニューラルネットワークは、画像の劣化の最先端技術である。
本稿では,自己監督型動作遅延に対する識別可能なreblurモデルを提案する。
我々の実験は、自己監督された単一画像の劣化が本当に実現可能であることを実証した。
論文 参考訳(メタデータ) (2020-02-10T20:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。