Fugu-MT 論文翻訳(概要): Progressive Multi-task Anti-Noise Learning and Distilling Frameworks for Fine-grained Vehicle Recognition

論文の概要: Progressive Multi-task Anti-Noise Learning and Distilling Frameworks for Fine-grained Vehicle Recognition

arxiv url: http://arxiv.org/abs/2401.14336v1
Date: Thu, 25 Jan 2024 17:34:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-26 13:41:23.106733
Title: Progressive Multi-task Anti-Noise Learning and Distilling Frameworks for Fine-grained Vehicle Recognition
Title（参考訳）: 微粒化車両認識のためのプログレッシブマルチタスクアンチノイズ学習と蒸留フレームワーク
Authors: Dichao Liu
Abstract要約: 微粒化車両認識(FGVR)は、インテリジェント交通システムにとって不可欠な技術である。これまでのFGVR研究のほとんどは、異なる撮影角度、位置などによって生じるクラス内変動にのみ焦点をあてている。本稿では、画像ノイズによるFGVRのクラス内変動問題を解決するために、プログレッシブマルチタスクアンチノイズ学習(PMAL)フレームワークとプログレッシブマルチタスク蒸留(PMD)フレームワークを提案する。
参考スコア（独自算出の注目度）: 2.311583680973075
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Fine-grained vehicle recognition (FGVR) is an essential fundamental technology for intelligent transportation systems, but very difficult because of its inherent intra-class variation. Most previous FGVR studies only focus on the intra-class variation caused by different shooting angles, positions, etc., while the intra-class variation caused by image noise has received little attention. This paper proposes a progressive multi-task anti-noise learning (PMAL) framework and a progressive multi-task distilling (PMD) framework to solve the intra-class variation problem in FGVR due to image noise. The PMAL framework achieves high recognition accuracy by treating image denoising as an additional task in image recognition and progressively forcing a model to learn noise invariance. The PMD framework transfers the knowledge of the PMAL-trained model into the original backbone network, which produces a model with about the same recognition accuracy as the PMAL-trained model, but without any additional overheads over the original backbone network. Combining the two frameworks, we obtain models that significantly exceed previous state-of-the-art methods in recognition accuracy on two widely-used, standard FGVR datasets, namely Stanford Cars, and CompCars, as well as three additional surveillance image-based vehicle-type classification datasets, namely Beijing Institute of Technology (BIT)-Vehicle, Vehicle Type Image Data 2 (VTID2), and Vehicle Images Dataset for Make Model Recognition (VIDMMR), without any additional overheads over the original backbone networks. The source code is available at https://github.com/Dichao-Liu/Anti-noise_FGVR
Abstract（参考訳）: 微粒化車両認識(FGVR)は、インテリジェント輸送システムに不可欠な技術であるが、その固有のクラス内変異のため非常に難しい。従来のFGVR研究のほとんどは、異なる撮影角度、位置等によるクラス内変動のみに焦点を当てているが、画像ノイズによるクラス内変動はほとんど注目されていない。本稿では、画像ノイズによるFGVRのクラス内変動問題を解決するために、プログレッシブマルチタスクアンチノイズ学習(PMAL)フレームワークとプログレッシブマルチタスク蒸留(PMD)フレームワークを提案する。 PMALフレームワークは、画像のデノイングを画像認識における付加的なタスクとして扱い、モデルを段階的にノイズ不変性学習させ、高い認識精度を達成する。 PMDフレームワークはPMALトレーニングされたモデルの知識を元のバックボーンネットワークに転送し、PMALトレーニングされたモデルとほぼ同一の認識精度のモデルを生成するが、元のバックボーンネットワークに余分なオーバーヘッドを伴わない。 Combining the two frameworks, we obtain models that significantly exceed previous state-of-the-art methods in recognition accuracy on two widely-used, standard FGVR datasets, namely Stanford Cars, and CompCars, as well as three additional surveillance image-based vehicle-type classification datasets, namely Beijing Institute of Technology (BIT)-Vehicle, Vehicle Type Image Data 2 (VTID2), and Vehicle Images Dataset for Make Model Recognition (VIDMMR), without any additional overheads over the original backbone networks. ソースコードはhttps://github.com/Dichao-Liu/Anti-noise_FGVRで入手できる。

関連論文リスト

Multi-View Learning with Context-Guided Receptance for Image Denoising [18.175992709188026]
写真や自動運転などの低レベルの視覚アプリケーションでは、画像のデノイングが不可欠である。既存の手法では、現実のシーンで複雑なノイズパターンを識別し、重要な計算資源を消費する。本研究では、マルチビュー機能統合と効率的なシーケンスモデリングを組み合わせた、コンテキスト誘導型Receptance Weighted Key-Value(M)モデルを提案する。このモデルは、複数の実世界の画像復号化データセットで検証され、既存の最先端の手法を定量的に上回り、推論時間を最大40%削減する。
論文参考訳（メタデータ） (2025-05-05T14:57:43Z)
Training Consistency Models with Variational Noise Coupling [21.978942601947026]
本稿では,フローマッチングフレームワークに基づく新しいCTトレーニング手法を提案する。我々の主な貢献は、変分オートエンコーダ(VAE)のアーキテクチャにインスパイアされた、訓練されたノイズカップリング方式である。多様な画像データセットにまたがる経験的結果は、顕著な生成的改善を示している。
論文参考訳（メタデータ） (2025-02-25T13:38:04Z)
Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文参考訳（メタデータ） (2024-11-28T13:04:45Z)
MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。 MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文参考訳（メタデータ） (2024-10-14T17:57:18Z)
RIGID: A Training-free and Model-Agnostic Framework for Robust AI-Generated Image Detection [60.960988614701414]
RIGIDは、堅牢なAI生成画像検出のためのトレーニング不要でモデルに依存しない方法である。 RIGIDは、既存のトレーニングベースおよびトレーニング不要な検出器を著しく上回っている。
論文参考訳（メタデータ） (2024-05-30T14:49:54Z)
Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。本研究では,既存のデータ拡張技術の欠点について検討する。 Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文参考訳（メタデータ） (2024-03-28T17:23:45Z)
ISSTAD: Incremental Self-Supervised Learning Based on Transformer for Anomaly Detection and Localization [12.975540251326683]
本稿では,Transformerのバックボーンネットワークに基づく新しいアプローチを提案する。通常の画像のみに基づいてMasked Autoencoder(MAE)モデルを訓練する。その後の段階では、劣化した正規画像を生成するためにピクセルレベルのデータ拡張技術を適用する。このプロセスにより、モデルは破損した領域の修復方法を学び、各ピクセルの状態を分類できる。
論文参考訳（メタデータ） (2023-03-30T13:11:26Z)
Dynamic Test-Time Augmentation via Differentiable Functions [3.686808512438363]
DynTTAは、認識モデルを再訓練することなく、認識に優しい画像を生成する画像強調手法である。 DynTTAは、微分可能なデータ拡張技術に基づいて、多くの画像からブレンド画像を生成し、分布シフト時の認識精度を向上させる。
論文参考訳（メタデータ） (2022-12-09T06:06:47Z)
Denoising Masked AutoEncoders are Certifiable Robust Vision Learners [37.04863068273281]
DMAE(Denoising Masked AutoEncoders)と呼ばれる自己教師型手法を提案する。 DMAEは各ピクセル値にガウスノイズを加え、複数のパッチをランダムにマスキングすることで、各イメージを劣化させる。その後、Transformerベースのエンコーダデコーダモデルをトレーニングして、オリジナルのイメージを破損したイメージから再構築する。
論文参考訳（メタデータ） (2022-10-10T12:37:59Z)
Robust Semi-supervised Federated Learning for Images Automatic Recognition in Internet of Drones [57.468730437381076]
プライバシー保護型UAV画像認識のための半教師付きフェデレートラーニング(SSFL)フレームワークを提案する。異なるカメラモジュールを使用したUAVによって収集されたローカルデータの数、特徴、分布には大きな違いがある。本稿では,クライアントがトレーニングに参加する頻度,すなわちFedFreqアグリゲーションルールに基づくアグリゲーションルールを提案する。
論文参考訳（メタデータ） (2022-01-03T16:49:33Z)
Few Shot Activity Recognition Using Variational Inference [9.371378627575883]
本稿では,少数のショットアクティビティ認識のための新しい変分推論ベースアーキテクチャフレームワーク(HF-AR)を提案する。筆者らの枠組みは, 容積保存型家庭用フローを活用して, 新規クラスの柔軟な後部分布を学習する。これにより、人間の行動認識のための最先端のショットアプローチと比較して、パフォーマンスが向上する。
論文参考訳（メタデータ） (2021-08-20T03:57:58Z)
Learning a Model-Driven Variational Network for Deformable Image Registration [89.9830129923847]
VR-Netは、教師なしの変形可能な画像登録のための新しいカスケード可変ネットワークである。登録精度において最先端のディープラーニング手法よりも優れています。ディープラーニングの高速推論速度と変分モデルのデータ効率を維持している。
論文参考訳（メタデータ） (2021-05-25T21:37:37Z)
Towards Unsupervised Deep Image Enhancement with Generative Adversarial Network [92.01145655155374]
監視されていない画像強調生成ネットワーク(UEGAN)を提案する。教師なしの方法で所望の特性を持つ画像の集合から、対応する画像と画像のマッピングを学習する。その結果,提案モデルは画像の美的品質を効果的に向上することがわかった。
論文参考訳（メタデータ） (2020-12-30T03:22:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。