論文の概要: Enhancing Vehicle Make and Model Recognition with 3D Attention Modules
- arxiv url: http://arxiv.org/abs/2502.15398v1
- Date: Fri, 21 Feb 2025 11:52:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 16:10:48.727453
- Title: Enhancing Vehicle Make and Model Recognition with 3D Attention Modules
- Title(参考訳): 3次元アテンションモジュールによる車両の製作とモデル認識の強化
- Authors: Narges Semiromizadeh, Omid Nejati Manzari, Shahriar B. Shokouhi, Sattar Mirzakuchaki,
- Abstract要約: 自動車製造・モデル認識(VMMR)は、インテリジェントトランスポートシステムの重要なコンポーネントである。
本研究では,クラス間の類似性とクラス内変動に対処するアテンションモジュールを実装した。
提案モデルでは,アテンションモジュールを,畳み込みモデルの中間部分にある2つの異なる場所に統合する。
- 参考スコア(独自算出の注目度): 1.4999444543328293
- License:
- Abstract: Vehicle make and model recognition (VMMR) is a crucial component of the Intelligent Transport System, garnering significant attention in recent years. VMMR has been widely utilized for detecting suspicious vehicles, monitoring urban traffic, and autonomous driving systems. The complexity of VMMR arises from the subtle visual distinctions among vehicle models and the wide variety of classes produced by manufacturers. Convolutional Neural Networks (CNNs), a prominent type of deep learning model, have been extensively employed in various computer vision tasks, including VMMR, yielding remarkable results. As VMMR is a fine-grained classification problem, it primarily faces inter-class similarity and intra-class variation challenges. In this study, we implement an attention module to address these challenges and enhance the model's focus on critical areas containing distinguishing features. This module, which does not increase the parameters of the original model, generates three-dimensional (3-D) attention weights to refine the feature map. Our proposed model integrates the attention module into two different locations within the middle section of a convolutional model, where the feature maps from these sections offer sufficient information about the input frames without being overly detailed or overly coarse. The performance of our proposed model, along with state-of-the-art (SOTA) convolutional and transformer-based models, was evaluated using the Stanford Cars dataset. Our proposed model achieved the highest accuracy, 90.69\%, among the compared models.
- Abstract(参考訳): 自動車製造・モデル認識(VMMR)はインテリジェントトランスポートシステムにおいて重要な要素であり、近年大きな注目を集めている。
VMMRは、不審な車両の検出、都市交通の監視、自動運転システムに広く利用されている。
VMMRの複雑さは、車両モデルと製造業者が生産する様々なクラスの間の微妙な視覚的区別から生じる。
畳み込みニューラルネットワーク(CNN)は,VMMRを含む様々なコンピュータビジョンタスクに広く採用されており,顕著な結果を得ている。
VMMRはきめ細かい分類の問題であるため、主にクラス間の類似性やクラス内変動の問題に直面している。
本研究では,これらの課題に対処するアテンションモジュールを実装し,特徴を識別する重要な領域にモデルを集中させる。
このモジュールは元のモデルのパラメータを増やさないが、3次元の3次元の注意重みを生成して特徴写像を洗練させる。
提案したモデルでは,アテンションモジュールを畳み込みモデルの中央部分内の2つの異なる場所に集積し,これらの部分の特徴マップは,過度に詳細化したり,過度に粗いものにしたりすることなく,入力フレームに関する十分な情報を提供する。
提案モデルと最新技術(SOTA)畳み込みモデルと変圧器モデルの性能をスタンフォード・カーズ・データセットを用いて評価した。
提案モデルでは, 比較モデル中, 90.69\%の精度が得られた。
関連論文リスト
- Optimizing Visual Question Answering Models for Driving: Bridging the Gap Between Human and Machine Attention Patterns [1.3781842574516934]
本研究では,運転関連質問に対するVQAモデルと比較し,人間の注意パターンについて検討した。
本稿では,モデルの注意機構を最適化するためにフィルタを統合する手法を提案し,関連オブジェクトの優先順位付けと精度の向上を図る。
論文 参考訳(メタデータ) (2024-06-13T15:00:17Z) - Reliable Object Tracking by Multimodal Hybrid Feature Extraction and Transformer-Based Fusion [18.138433117711177]
本稿では,信頼度の高い単一オブジェクト追跡にフレームイベントベースのデータを利用する新しいマルチモーダルハイブリッドトラッカー(MMHT)を提案する。
MMHTモデルは、人工ニューラルネットワーク(ANN)とスパイクニューラルネットワーク(SNN)からなるハイブリッドバックボーンを使用して、異なる視覚モードから支配的な特徴を抽出する。
MMHTモデルは,他の最先端手法と比較して,競争性能を示すことを示した。
論文 参考訳(メタデータ) (2024-05-28T07:24:56Z) - What matters when building vision-language models? [52.8539131958858]
我々は、80億のパラメータを持つ効率的な基礎的視覚言語モデルであるIdefics2を開発した。
Idefics2は、様々なマルチモーダルベンチマークで、そのサイズカテゴリ内で最先端のパフォーマンスを達成する。
トレーニング用に作成されたデータセットとともに、モデル(ベース、指示、チャット)をリリースします。
論文 参考訳(メタデータ) (2024-05-03T17:00:00Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - AutoAlignV2: Deformable Feature Aggregation for Dynamic Multi-Modal 3D
Object Detection [17.526914782562528]
我々はAutoAlign上に構築された高速で強力なマルチモーダル3D検出フレームワークであるAutoAlignV2を提案する。
我々の最良のモデルは、nuScenesテストのリーダーボード上で72.4 NDSに達し、新しい最先端の結果が得られます。
論文 参考訳(メタデータ) (2022-07-21T06:17:23Z) - Progressive Multi-stage Interactive Training in Mobile Network for
Fine-grained Recognition [8.727216421226814]
再帰型モザイク発電機(RMG-PMSI)を用いたプログレッシブ多段階インタラクティブトレーニング手法を提案する。
まず、異なる位相の異なる画像を生成する再帰モザイク発生器(RMG)を提案する。
次に、異なるステージの特徴は、異なるステージの対応する特徴を強化し補完するマルチステージインタラクション(MSI)モジュールを通過する。
RMG-PMSIは高い堅牢性と伝達性で性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2021-12-08T10:50:03Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z) - PerMO: Perceiving More at Once from a Single Image for Autonomous
Driving [76.35684439949094]
単一画像から完全テクスチャ化された車両の3次元モデルを検出し,セグメント化し,再構成する新しい手法を提案する。
私たちのアプローチは、ディープラーニングの強みと従来のテクニックの優雅さを組み合わせています。
我々はこれらのアルゴリズムを自律運転システムに統合した。
論文 参考訳(メタデータ) (2020-07-16T05:02:45Z) - An LSTM-Based Autonomous Driving Model Using Waymo Open Dataset [7.151393153761375]
本稿では,短期記憶モデル(LSTM)を用いた自律走行モデルの動作を模倣する手法を提案する。
実験結果から,本モデルは動作予測においていくつかのモデルより優れることがわかった。
論文 参考訳(メタデータ) (2020-02-14T05:28:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。