論文の概要: Structural Information Guided Multimodal Pre-training for
Vehicle-centric Perception
- arxiv url: http://arxiv.org/abs/2312.09812v1
- Date: Fri, 15 Dec 2023 14:10:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 15:27:19.421470
- Title: Structural Information Guided Multimodal Pre-training for
Vehicle-centric Perception
- Title(参考訳): 車両セントリックのための構造情報誘導マルチモーダル事前学習
- Authors: Xiao Wang, Wentao Wu, Chenglong Li, Zhicheng Zhao, Zhe Chen, Yukai
Shi, Jin Tang
- Abstract要約: そこで我々は,VagerMAEと呼ばれる新しい車両中心の事前学習フレームワークを提案する。
車両のスケッチラインを空間構造の形式として明示的に抽出し,車両の再建を誘導する。
大規模なデータセットは、約100万の車両画像と12693のテキスト情報を含むAutobot1Mと呼ばれるモデルを事前訓練するために構築されている。
- 参考スコア(独自算出の注目度): 36.92036421490819
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding vehicles in images is important for various applications such
as intelligent transportation and self-driving system. Existing vehicle-centric
works typically pre-train models on large-scale classification datasets and
then fine-tune them for specific downstream tasks. However, they neglect the
specific characteristics of vehicle perception in different tasks and might
thus lead to sub-optimal performance. To address this issue, we propose a novel
vehicle-centric pre-training framework called VehicleMAE, which incorporates
the structural information including the spatial structure from vehicle profile
information and the semantic structure from informative high-level natural
language descriptions for effective masked vehicle appearance reconstruction.
To be specific, we explicitly extract the sketch lines of vehicles as a form of
the spatial structure to guide vehicle reconstruction. The more comprehensive
knowledge distilled from the CLIP big model based on the similarity between the
paired/unpaired vehicle image-text sample is further taken into consideration
to help achieve a better understanding of vehicles. A large-scale dataset is
built to pre-train our model, termed Autobot1M, which contains about 1M vehicle
images and 12693 text information. Extensive experiments on four vehicle-based
downstream tasks fully validated the effectiveness of our VehicleMAE. The
source code and pre-trained models will be released at
https://github.com/Event-AHU/VehicleMAE.
- Abstract(参考訳): 画像中の車両を理解することは、インテリジェント輸送や自動運転システムといった様々な用途において重要である。
既存の車両中心の作業は通常、大規模な分類データセットで事前トレーニングされ、特定の下流タスク用に微調整される。
しかし、異なるタスクにおける車両知覚の特定の特性を無視し、結果として最適以下の性能をもたらす可能性がある。
この問題に対処するために,車両プロファイル情報から空間構造を含む構造情報と,効果的なマスク付き車両外観復元のための高レベル自然言語記述からの意味構造を含む,新しい車両中心の事前学習フレームワークであるVabyMAEを提案する。
具体的には,空間構造として車両のスケッチ線を明示的に抽出し,車両の再構築を導く。
CLIPビッグモデルから抽出したより包括的な知識は、車両の理解を深めるため、ペア化/アンペア化画像テキストサンプルの類似性に基づいてさらに検討される。
大規模なデータセットは、約100万の車両画像と12693のテキスト情報を含むAutobot1Mと呼ばれるモデルを事前訓練するために構築されている。
4つのダウンストリームタスクに関する広範囲な実験が,車前の有効性を完全に検証した。
ソースコードと事前トレーニングされたモデルはhttps://github.com/Event-AHU/VehicleMAEでリリースされる。
関連論文リスト
- VFM-Det: Towards High-Performance Vehicle Detection via Large Foundation Models [21.186456742407007]
本稿では,VFM-Detと呼ばれる,事前訓練された基礎車両モデル(VehicleMAE)と大規模言語モデル(T5)に基づく新しい車両検出パラダイムを提案する。
我々のモデルは、それぞれ$AP_0.5$と$AP_0.75$で、ベースラインアプローチを$+5.1%$、$+6.2%$で改善する。
論文 参考訳(メタデータ) (2024-08-23T12:39:02Z) - Symmetric Network with Spatial Relationship Modeling for Natural
Language-based Vehicle Retrieval [3.610372087454382]
自然言語(NL)に基づく車両検索は,特定の車両のテキスト記述を検索することを目的としている。
NLに基づく車両検索のための空間関係モデリング(SSM)手法を提案する。
第6回AIシティチャレンジでは43.92%のMRR精度を達成した。
論文 参考訳(メタデータ) (2022-06-22T07:02:04Z) - CRAT-Pred: Vehicle Trajectory Prediction with Crystal Graph
Convolutional Neural Networks and Multi-Head Self-Attention [10.83642398981694]
CRAT-Predは、地図情報に依存しない軌道予測モデルである。
このモデルは非常に少ないモデルパラメータで最先端の性能を達成する。
さらに,車間の社会的相互作用を,測定可能なインタラクションスコアを表す重みによって学習できることを定量的に示す。
論文 参考訳(メタデータ) (2022-02-09T14:36:36Z) - Self-Supervised Steering Angle Prediction for Vehicle Control Using
Visual Odometry [55.11913183006984]
視覚オドメトリー法を用いて推定したカメラポーズを用いて,車両の軌道制御をモデルに訓練する方法を示す。
車両の前方にカメラを設置することにより,複数の異なる走行経路からの軌跡情報を活用するスケーラブルなフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-20T16:29:01Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z) - Detecting 32 Pedestrian Attributes for Autonomous Vehicles [103.87351701138554]
本稿では、歩行者を共同で検出し、32の歩行者属性を認識するという課題に対処する。
本稿では,複合フィールドフレームワークを用いたマルチタスク学習(MTL)モデルを提案する。
競合検出と属性認識の結果と,より安定したMTLトレーニングを示す。
論文 参考訳(メタデータ) (2020-12-04T15:10:12Z) - VehicleNet: Learning Robust Visual Representation for Vehicle
Re-identification [116.1587709521173]
我々は,4つのパブリックな車両データセットを活用することで,大規模車両データセット(VabyNet)を構築することを提案する。
VehicleNetからより堅牢な視覚表現を学習するための、シンプルで効果的な2段階プログレッシブアプローチを設計する。
AICity Challengeのプライベートテストセットにおいて,最先端の精度86.07%mAPを実現した。
論文 参考訳(メタデータ) (2020-04-14T05:06:38Z) - The Devil is in the Details: Self-Supervised Attention for Vehicle
Re-Identification [75.3310894042132]
車両識別のための自己監督的注意(SAVER)は、車両固有の識別特徴を効果的に学習するための新しいアプローチである。
我々は,SAVERがVeRi, VehicleID, Vehicle-1M, VERI-Wildのデータセットに挑戦する際の最先端性を改善することを示す。
論文 参考訳(メタデータ) (2020-04-14T02:24:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。