論文の概要: FlipReID: Closing the Gap between Training and Inference in Person
Re-Identification
- arxiv url: http://arxiv.org/abs/2105.05639v1
- Date: Wed, 12 May 2021 13:14:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-13 12:21:39.175622
- Title: FlipReID: Closing the Gap between Training and Inference in Person
Re-Identification
- Title(参考訳): FlipReID: 個人再同定におけるトレーニングと推論のギャップを埋める
- Authors: Xingyang Ni, Esa Rahtu
- Abstract要約: 個人再識別モデルでは、元の画像と水平に反転した変種の両方の埋め込みを抽出することが一般的である。
最終的な表現は、前述の特徴ベクトルの平均である。
この問題に対処するために,FlipReID構造を反転損失で設計する。
- 参考スコア(独自算出の注目度): 17.209060627291315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since neural networks are data-hungry, incorporating data augmentation in
training is a widely adopted technique that enlarges datasets and improves
generalization. On the other hand, aggregating predictions of multiple
augmented samples (i.e., test-time augmentation) could boost performance even
further. In the context of person re-identification models, it is common
practice to extract embeddings for both the original images and their
horizontally flipped variants. The final representation is the mean of the
aforementioned feature vectors. However, such scheme results in a gap between
training and inference, i.e., the mean feature vectors calculated in inference
are not part of the training pipeline. In this study, we devise the FlipReID
structure with the flipping loss to address this issue. More specifically,
models using the FlipReID structure are trained on the original images and the
flipped images simultaneously, and incorporating the flipping loss minimizes
the mean squared error between feature vectors of corresponding image pairs.
Extensive experiments show that our method brings consistent improvements. In
particular, we set a new record for MSMT17 which is the largest person
re-identification dataset. The source code is available at
https://github.com/nixingyang/FlipReID.
- Abstract(参考訳): ニューラルネットワークはデータ重視であるため、トレーニングにデータ拡張を導入することは、データセットを拡張し、一般化を改善するための広く採用されているテクニックである。
一方,複数サンプル(テスト時間拡張)の集約予測により,さらなる性能向上が期待できる。
人物再識別モデルでは、元の画像と水平に反転した変種の両方の埋め込みを抽出することが一般的である。
最後の表現は上記の特徴ベクトルの平均である。
しかし、そのようなスキームはトレーニングと推論の間のギャップ、すなわち推論で計算される平均特徴ベクトルはトレーニングパイプラインの一部ではない。
本研究では,flipreid構造をフリップ損失で考案し,この問題に対処する。
具体的には、FlipReID構造を用いたモデルは、元の画像とフリップ画像とを同時にトレーニングし、フリップロスを組み込むことで、対応する画像対の特徴ベクトル間の平均2乗誤差を最小化する。
広範な実験により,本手法が一貫した改善をもたらすことが示された。
特に,最大人物識別データセットであるMSMT17の新たな記録を設定した。
ソースコードはhttps://github.com/nixingyang/FlipReIDで入手できる。
関連論文リスト
- Data Attribution for Text-to-Image Models by Unlearning Synthesized Images [71.23012718682634]
テキスト・ツー・イメージ・モデルにおけるデータ帰属の目標は、新しい画像の生成に最も影響を与えるトレーニング画像を特定することである。
本稿では,高能率画像の同定を効果的に行う新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T17:59:44Z) - Make Prompts Adaptable: Bayesian Modeling for Vision-Language Prompt
Learning with Data-Dependent Prior [14.232144691524528]
最近のVision-Language Pretrainedモデルは、多くの下流タスクのバックボーンとなっている。
MLEトレーニングは、トレーニングデータにおいて、コンテキストベクトルを過度に適合する画像特徴に導くことができる。
本稿では,素早い学習のためのベイズ的枠組みを提案する。
論文 参考訳(メタデータ) (2024-01-09T10:15:59Z) - Revisiting Data Augmentation for Rotational Invariance in Convolutional
Neural Networks [0.29127054707887967]
画像分類のためのCNNにおける回転不変性について検討する。
実験により、データ拡張だけで訓練されたネットワークは、通常の非回転の場合と同様に、回転した画像の分類がほぼ可能であることが示された。
論文 参考訳(メタデータ) (2023-10-12T15:53:24Z) - Aligning Text-to-Image Diffusion Models with Reward Backpropagation [62.45086888512723]
本稿では,報酬勾配のエンドツーエンドのバックプロパゲーションを用いて,拡散モデルを下流の報酬関数に整合させる手法であるAlignPropを提案する。
AlignPropは、選択肢よりも少ないトレーニングステップでより高い報酬を得るが、概念的にはシンプルである。
論文 参考訳(メタデータ) (2023-10-05T17:59:18Z) - Learning sparse features can lead to overfitting in neural networks [9.2104922520782]
機能学習は遅延トレーニングよりもパフォーマンスが良くないことを示す。
空間性は異方性データの学習に不可欠であることが知られているが、対象関数が一定あるいは滑らかな場合に有害である。
論文 参考訳(メタデータ) (2022-06-24T14:26:33Z) - Large-Margin Representation Learning for Texture Classification [67.94823375350433]
本稿では,テクスチャ分類のための小さなデータセット上で教師付きモデルをトレーニングするために,畳み込み層(CL)と大規模計量学習を組み合わせた新しいアプローチを提案する。
テクスチャと病理画像データセットの実験結果から,提案手法は同等のCNNと比較して計算コストが低く,収束が早く,競争精度が向上することが示された。
論文 参考訳(メタデータ) (2022-06-17T04:07:45Z) - Feature transforms for image data augmentation [74.12025519234153]
画像分類において、多くの拡張アプローチは単純な画像操作アルゴリズムを利用する。
本研究では,14種類の拡張アプローチを組み合わせて生成した画像を追加することで,データレベルでのアンサンブルを構築する。
事前トレーニングされたResNet50ネットワークは、各拡張メソッドから派生した画像を含むトレーニングセットに基づいて微調整される。
論文 参考訳(メタデータ) (2022-01-24T14:12:29Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - On the Texture Bias for Few-Shot CNN Segmentation [21.349705243254423]
畳み込みニューラルネットワーク(CNN)は、視覚認識タスクを実行するために形状によって駆動される。
最近の証拠は、CNNのテクスチャバイアスが、大きなラベル付きトレーニングデータセットで学習するときに、より高いパフォーマンスのモデルを提供することを示している。
本稿では,特徴空間内の高周波局所成分を減衰させるために,ガウス差分(DoG)の集合を統合する新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-03-09T11:55:47Z) - Towards Universal Representation Learning for Deep Face Recognition [106.21744671876704]
対象のドメイン知識を活用せずに、与えられたトレーニングデータに見つからない大きな変化に対処できる普遍的な表現学習フレームワークを提案する。
実験により,LFW や MegaFace などの一般的な顔認識データセットにおいて,本手法が最高性能を実現することを示す。
論文 参考訳(メタデータ) (2020-02-26T23:29:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。