論文の概要: Progressive Multi-task Anti-Noise Learning and Distilling Frameworks for
Fine-grained Vehicle Recognition
- arxiv url: http://arxiv.org/abs/2401.14336v1
- Date: Thu, 25 Jan 2024 17:34:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 13:41:23.106733
- Title: Progressive Multi-task Anti-Noise Learning and Distilling Frameworks for
Fine-grained Vehicle Recognition
- Title(参考訳): 微粒化車両認識のためのプログレッシブマルチタスクアンチノイズ学習と蒸留フレームワーク
- Authors: Dichao Liu
- Abstract要約: 微粒化車両認識(FGVR)は、インテリジェント交通システムにとって不可欠な技術である。
これまでのFGVR研究のほとんどは、異なる撮影角度、位置などによって生じるクラス内変動にのみ焦点をあてている。
本稿では、画像ノイズによるFGVRのクラス内変動問題を解決するために、プログレッシブマルチタスクアンチノイズ学習(PMAL)フレームワークとプログレッシブマルチタスク蒸留(PMD)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 2.311583680973075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-grained vehicle recognition (FGVR) is an essential fundamental
technology for intelligent transportation systems, but very difficult because
of its inherent intra-class variation. Most previous FGVR studies only focus on
the intra-class variation caused by different shooting angles, positions, etc.,
while the intra-class variation caused by image noise has received little
attention. This paper proposes a progressive multi-task anti-noise learning
(PMAL) framework and a progressive multi-task distilling (PMD) framework to
solve the intra-class variation problem in FGVR due to image noise. The PMAL
framework achieves high recognition accuracy by treating image denoising as an
additional task in image recognition and progressively forcing a model to learn
noise invariance. The PMD framework transfers the knowledge of the PMAL-trained
model into the original backbone network, which produces a model with about the
same recognition accuracy as the PMAL-trained model, but without any additional
overheads over the original backbone network. Combining the two frameworks, we
obtain models that significantly exceed previous state-of-the-art methods in
recognition accuracy on two widely-used, standard FGVR datasets, namely
Stanford Cars, and CompCars, as well as three additional surveillance
image-based vehicle-type classification datasets, namely Beijing Institute of
Technology (BIT)-Vehicle, Vehicle Type Image Data 2 (VTID2), and Vehicle Images
Dataset for Make Model Recognition (VIDMMR), without any additional overheads
over the original backbone networks. The source code is available at
https://github.com/Dichao-Liu/Anti-noise_FGVR
- Abstract(参考訳): 微粒化車両認識(FGVR)は、インテリジェント輸送システムに不可欠な技術であるが、その固有のクラス内変異のため非常に難しい。
従来のFGVR研究のほとんどは、異なる撮影角度、位置等によるクラス内変動のみに焦点を当てているが、画像ノイズによるクラス内変動はほとんど注目されていない。
本稿では、画像ノイズによるFGVRのクラス内変動問題を解決するために、プログレッシブマルチタスクアンチノイズ学習(PMAL)フレームワークとプログレッシブマルチタスク蒸留(PMD)フレームワークを提案する。
PMALフレームワークは、画像のデノイングを画像認識における付加的なタスクとして扱い、モデルを段階的にノイズ不変性学習させ、高い認識精度を達成する。
PMDフレームワークはPMALトレーニングされたモデルの知識を元のバックボーンネットワークに転送し、PMALトレーニングされたモデルとほぼ同一の認識精度のモデルを生成するが、元のバックボーンネットワークに余分なオーバーヘッドを伴わない。
Combining the two frameworks, we obtain models that significantly exceed previous state-of-the-art methods in recognition accuracy on two widely-used, standard FGVR datasets, namely Stanford Cars, and CompCars, as well as three additional surveillance image-based vehicle-type classification datasets, namely Beijing Institute of Technology (BIT)-Vehicle, Vehicle Type Image Data 2 (VTID2), and Vehicle Images Dataset for Make Model Recognition (VIDMMR), without any additional overheads over the original backbone networks.
ソースコードはhttps://github.com/Dichao-Liu/Anti-noise_FGVRで入手できる。
関連論文リスト
- MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。
MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - RIGID: A Training-free and Model-Agnostic Framework for Robust AI-Generated Image Detection [60.960988614701414]
RIGIDは、堅牢なAI生成画像検出のためのトレーニング不要でモデルに依存しない方法である。
RIGIDは、既存のトレーニングベースおよびトレーニング不要な検出器を著しく上回っている。
論文 参考訳(メタデータ) (2024-05-30T14:49:54Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - ISSTAD: Incremental Self-Supervised Learning Based on Transformer for
Anomaly Detection and Localization [12.975540251326683]
本稿では,Transformerのバックボーンネットワークに基づく新しいアプローチを提案する。
通常の画像のみに基づいてMasked Autoencoder(MAE)モデルを訓練する。
その後の段階では、劣化した正規画像を生成するためにピクセルレベルのデータ拡張技術を適用する。
このプロセスにより、モデルは破損した領域の修復方法を学び、各ピクセルの状態を分類できる。
論文 参考訳(メタデータ) (2023-03-30T13:11:26Z) - Dynamic Test-Time Augmentation via Differentiable Functions [3.686808512438363]
DynTTAは、認識モデルを再訓練することなく、認識に優しい画像を生成する画像強調手法である。
DynTTAは、微分可能なデータ拡張技術に基づいて、多くの画像からブレンド画像を生成し、分布シフト時の認識精度を向上させる。
論文 参考訳(メタデータ) (2022-12-09T06:06:47Z) - Denoising Masked AutoEncoders are Certifiable Robust Vision Learners [37.04863068273281]
DMAE(Denoising Masked AutoEncoders)と呼ばれる自己教師型手法を提案する。
DMAEは各ピクセル値にガウスノイズを加え、複数のパッチをランダムにマスキングすることで、各イメージを劣化させる。
その後、Transformerベースのエンコーダデコーダモデルをトレーニングして、オリジナルのイメージを破損したイメージから再構築する。
論文 参考訳(メタデータ) (2022-10-10T12:37:59Z) - Robust Semi-supervised Federated Learning for Images Automatic
Recognition in Internet of Drones [57.468730437381076]
プライバシー保護型UAV画像認識のための半教師付きフェデレートラーニング(SSFL)フレームワークを提案する。
異なるカメラモジュールを使用したUAVによって収集されたローカルデータの数、特徴、分布には大きな違いがある。
本稿では,クライアントがトレーニングに参加する頻度,すなわちFedFreqアグリゲーションルールに基づくアグリゲーションルールを提案する。
論文 参考訳(メタデータ) (2022-01-03T16:49:33Z) - Few Shot Activity Recognition Using Variational Inference [9.371378627575883]
本稿では,少数のショットアクティビティ認識のための新しい変分推論ベースアーキテクチャフレームワーク(HF-AR)を提案する。
筆者らの枠組みは, 容積保存型家庭用フローを活用して, 新規クラスの柔軟な後部分布を学習する。
これにより、人間の行動認識のための最先端のショットアプローチと比較して、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2021-08-20T03:57:58Z) - Learning a Model-Driven Variational Network for Deformable Image
Registration [89.9830129923847]
VR-Netは、教師なしの変形可能な画像登録のための新しいカスケード可変ネットワークである。
登録精度において最先端のディープラーニング手法よりも優れています。
ディープラーニングの高速推論速度と変分モデルのデータ効率を維持している。
論文 参考訳(メタデータ) (2021-05-25T21:37:37Z) - Towards Unsupervised Deep Image Enhancement with Generative Adversarial
Network [92.01145655155374]
監視されていない画像強調生成ネットワーク(UEGAN)を提案する。
教師なしの方法で所望の特性を持つ画像の集合から、対応する画像と画像のマッピングを学習する。
その結果,提案モデルは画像の美的品質を効果的に向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:22:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。