論文の概要: Adaptive Aspect Ratios with Patch-Mixup-ViT-based Vehicle ReID
- arxiv url: http://arxiv.org/abs/2411.06297v1
- Date: Sat, 09 Nov 2024 21:49:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:09:25.640478
- Title: Adaptive Aspect Ratios with Patch-Mixup-ViT-based Vehicle ReID
- Title(参考訳): Patch-Mixup-ViT-based Vehicle ReIDによる適応アスペクト比
- Authors: Mei Qiu, Lauren Ann Christopher, Stanley Chien, Lingxi Li,
- Abstract要約: 画像またはビデオ入力の非二乗アスペクト比は、再識別精度に悪影響を及ぼす可能性がある。
様々なアスペクト比で訓練されたモデルを融合する新しいViTベースのReIDフレームワークを提案する。
提案手法は,両データセットにおける最先端のトランスフォーマーベースアプローチよりも優れる。
- 参考スコア(独自算出の注目度): 3.834614490767914
- License:
- Abstract: Vision Transformers (ViTs) have shown exceptional performance in vehicle re-identification (ReID) tasks. However, non-square aspect ratios of image or video inputs can negatively impact re-identification accuracy. To address this challenge, we propose a novel, human perception driven, and general ViT-based ReID framework that fuses models trained on various aspect ratios. Our key contributions are threefold: (i) We analyze the impact of aspect ratios on performance using the VeRi-776 and VehicleID datasets, providing guidance for input settings based on the distribution of original image aspect ratios. (ii) We introduce patch-wise mixup strategy during ViT patchification (guided by spatial attention scores) and implement uneven stride for better alignment with object aspect ratios. (iii) We propose a dynamic feature fusion ReID network to enhance model robustness. Our method outperforms state-of-the-art transformer-based approaches on both datasets, with only a minimal increase in inference time per image.
- Abstract(参考訳): 視覚変換器(ViT)は、車両再識別(ReID)タスクにおいて例外的な性能を示した。
しかし、画像やビデオの入力の2乗でないアスペクト比は、再識別精度に悪影響を及ぼす可能性がある。
この課題に対処するために、我々は、様々なアスペクト比で訓練されたモデルを融合する、新しい、人間の知覚駆動型、および一般的なViTベースのReIDフレームワークを提案する。
私たちの重要な貢献は3つあります。
i)VeRi-776とVaviIDデータセットを用いてアスペクト比がパフォーマンスに与える影響を解析し、元の画像アスペクト比の分布に基づいて入力設定のガイダンスを提供する。
(II) ViT パッチ化時のパッチワイド・ミックスアップ・ストラテジー(空間的注意スコアによる誘導)を導入し,対象アスペクト比との整合性を高めるために不均一なストライドを実装した。
3) モデルロバスト性を高めるために, 動的特徴融合型ReIDネットワークを提案する。
提案手法は,画像毎の推論時間の増加を最小限に抑えながら,両データセットにおける最先端のトランスフォーマーベースのアプローチより優れる。
関連論文リスト
- UniTT-Stereo: Unified Training of Transformer for Enhanced Stereo Matching [18.02254687807291]
UniTT-StereoはTransformerベースのステレオアーキテクチャの可能性を最大化する手法である。
UniTT-Stereoの最先端性能は、ETH3D、KITTI 2012、KITTI 2015データセットなどの様々なベンチマークで検証されている。
論文 参考訳(メタデータ) (2024-09-04T09:02:01Z) - Study on Aspect Ratio Variability toward Robustness of Vision Transformer-based Vehicle Re-identification [4.189040854337193]
本稿では,様々なアスペクト比で訓練されたモデルを融合する,新しいViTベースのReIDフレームワークを提案する。
提案手法は,平均精度が91.0%,平均精度が80.9%,平均精度が91.0%,平均精度が80.9%であった。
論文 参考訳(メタデータ) (2024-07-10T17:02:42Z) - V2X-AHD:Vehicle-to-Everything Cooperation Perception via Asymmetric
Heterogenous Distillation Network [13.248981195106069]
車両間協調認識システム(V2X-AHD)を提案する。
この研究によると、V2X-AHDは3次元物体検出の精度を効果的に向上し、ネットワークパラメータの数を削減できる。
論文 参考訳(メタデータ) (2023-10-10T13:12:03Z) - Unifying Flow, Stereo and Depth Estimation [121.54066319299261]
本稿では3つの動作と3次元知覚タスクのための統一的な定式化とモデルを提案する。
これら3つのタスクを、統一された高密度対応マッチング問題として定式化する。
我々のモデルは、モデルアーキテクチャとパラメータがタスク間で共有されているため、自然にクロスタスク転送を可能にします。
論文 参考訳(メタデータ) (2022-11-10T18:59:54Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - Optimizing Relevance Maps of Vision Transformers Improves Robustness [91.61353418331244]
視覚的分類モデルは、しばしば画像背景に依存し、前景を無視し、分布の変化に対する頑丈さを損なうことが観察されている。
本稿では,モデルが前景オブジェクトに注目するように,モデルの関連性信号を監視して操作することを提案する。
これは、画像とそれに関連する前景マスクからなる比較的少数のサンプルを含む、微調整のステップとして行われる。
論文 参考訳(メタデータ) (2022-06-02T17:24:48Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Parsing-based View-aware Embedding Network for Vehicle Re-Identification [138.11983486734576]
本稿では,車載ReIDのビューアウェア機能アライメントと拡張を実現するために,解析に基づくPVEN(View-Aware Embedding Network)を提案する。
3つのデータセットで行った実験により、我々のモデルは最先端の手法よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2020-04-10T13:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。