論文の概要: Study on Aspect Ratio Variability toward Robustness of Vision Transformer-based Vehicle Re-identification
- arxiv url: http://arxiv.org/abs/2407.07842v1
- Date: Wed, 10 Jul 2024 17:02:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 15:43:17.769004
- Title: Study on Aspect Ratio Variability toward Robustness of Vision Transformer-based Vehicle Re-identification
- Title(参考訳): 視覚変換器を用いた車両再識別におけるロバスト性に対するアスペクト比の変動に関する研究
- Authors: Mei Qiu, Lauren Christopher, Lingxi Li,
- Abstract要約: 本稿では,様々なアスペクト比で訓練されたモデルを融合する,新しいViTベースのReIDフレームワークを提案する。
提案手法は,平均精度が91.0%,平均精度が80.9%,平均精度が91.0%,平均精度が80.9%であった。
- 参考スコア(独自算出の注目度): 4.189040854337193
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Vision Transformers (ViTs) have excelled in vehicle re-identification (ReID) tasks. However, non-square aspect ratios of image or video input might significantly affect the re-identification performance. To address this issue, we propose a novel ViT-based ReID framework in this paper, which fuses models trained on a variety of aspect ratios. Our main contributions are threefold: (i) We analyze aspect ratio performance on VeRi-776 and VehicleID datasets, guiding input settings based on aspect ratios of original images. (ii) We introduce patch-wise mixup intra-image during ViT patchification (guided by spatial attention scores) and implement uneven stride for better object aspect ratio matching. (iii) We propose a dynamic feature fusing ReID network, enhancing model robustness. Our ReID method achieves a significantly improved mean Average Precision (mAP) of 91.0\% compared to the the closest state-of-the-art (CAL) result of 80.9\% on VehicleID dataset.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は、車両再識別(ReID)タスクに優れています。
しかし、画像またはビデオ入力の非二乗アスペクト比は、再識別性能に大きな影響を及ぼす可能性がある。
本稿では,様々なアスペクト比で学習したモデルを融合した新しいViTベースのReIDフレームワークを提案する。
私たちの主な貢献は3倍です。
i)VeRi-776とVaviIDデータセットのアスペクト比性能を分析し、原画像のアスペクト比に基づいて入力設定を誘導する。
(II) ViT パッチ中にパッチワイド・ミックスアップ・イン・イメージを導入し(空間的注意スコアによる誘導)、オブジェクトアスペクト比の整合性を改善するために不均一なストライドを実装した。
3) モデルロバスト性を高めたReIDネットワークを融合する動的特徴量を提案する。
提案手法は,平均精度が91.0\%,平均精度が80.9\%,平均精度が91.0\%,平均精度が80.9\%であった。
関連論文リスト
- Adaptive Aspect Ratios with Patch-Mixup-ViT-based Vehicle ReID [3.834614490767914]
画像またはビデオ入力の非二乗アスペクト比は、再識別精度に悪影響を及ぼす可能性がある。
様々なアスペクト比で訓練されたモデルを融合する新しいViTベースのReIDフレームワークを提案する。
提案手法は,両データセットにおける最先端のトランスフォーマーベースアプローチよりも優れる。
論文 参考訳(メタデータ) (2024-11-09T21:49:45Z) - Optimization of Autonomous Driving Image Detection Based on RFAConv and Triplet Attention [1.345669927504424]
本稿では, YOLOv8モデルの拡張のための総合的アプローチを提案する。
C2f_RFAConvモジュールは、機能の抽出効率を高めるために元のモジュールを置き換える。
Triplet Attentionメカニズムは、ターゲット検出の強化のための特徴焦点を強化する。
論文 参考訳(メタデータ) (2024-06-25T08:59:33Z) - ReViT: Enhancing Vision Transformers Feature Diversity with Attention Residual Connections [8.372189962601077]
視覚変換器(ViT)自己保持機構は、深い層に特徴的崩壊を特徴とする。
本稿では,ViTに基づくアーキテクチャを改良するための新たな注意学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-17T14:44:10Z) - Image Deblurring by Exploring In-depth Properties of Transformer [86.7039249037193]
我々は、事前訓練された視覚変換器(ViT)から抽出した深い特徴を活用し、定量的な測定値によって測定された性能を犠牲にすることなく、回復した画像のシャープ化を促進する。
得られた画像と対象画像の変換器特徴を比較することにより、事前学習された変換器は、高解像度のぼやけた意味情報を提供する。
特徴をベクトルとみなし、抽出された画像から抽出された表現とユークリッド空間における対象表現との差を計算する。
論文 参考訳(メタデータ) (2023-03-24T14:14:25Z) - Optimizing Relevance Maps of Vision Transformers Improves Robustness [91.61353418331244]
視覚的分類モデルは、しばしば画像背景に依存し、前景を無視し、分布の変化に対する頑丈さを損なうことが観察されている。
本稿では,モデルが前景オブジェクトに注目するように,モデルの関連性信号を監視して操作することを提案する。
これは、画像とそれに関連する前景マスクからなる比較的少数のサンプルを含む、微調整のステップとして行われる。
論文 参考訳(メタデータ) (2022-06-02T17:24:48Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Parsing-based View-aware Embedding Network for Vehicle Re-Identification [138.11983486734576]
本稿では,車載ReIDのビューアウェア機能アライメントと拡張を実現するために,解析に基づくPVEN(View-Aware Embedding Network)を提案する。
3つのデータセットで行った実験により、我々のモデルは最先端の手法よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2020-04-10T13:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。