論文の概要: Vehicle-centric Perception via Multimodal Structured Pre-training
- arxiv url: http://arxiv.org/abs/2512.19934v1
- Date: Mon, 22 Dec 2025 23:42:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.68862
- Title: Vehicle-centric Perception via Multimodal Structured Pre-training
- Title(参考訳): マルチモーダル構造化事前訓練による車中心知覚
- Authors: Wentao Wu, Xiao Wang, Chenglong Li, Jin Tang, Bin Luo,
- Abstract要約: 車両中心の知覚は多くのインテリジェントシステムにおいて重要な役割を担っている。
既存のアプローチでは、事前訓練中に車両関連の知識を効果的に学習することができない。
我々は,新しい車両中心の事前訓練型大型モデルであるVagerMAE-V2を提案する。
- 参考スコア(独自算出の注目度): 25.10454666316602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vehicle-centric perception plays a crucial role in many intelligent systems, including large-scale surveillance systems, intelligent transportation, and autonomous driving. Existing approaches lack effective learning of vehicle-related knowledge during pre-training, resulting in poor capability for modeling general vehicle perception representations. To handle this problem, we propose VehicleMAE-V2, a novel vehicle-centric pre-trained large model. By exploring and exploiting vehicle-related multimodal structured priors to guide the masked token reconstruction process, our approach can significantly enhance the model's capability to learn generalizable representations for vehicle-centric perception. Specifically, we design the Symmetry-guided Mask Module (SMM), Contour-guided Representation Module (CRM) and Semantics-guided Representation Module (SRM) to incorporate three kinds of structured priors into token reconstruction including symmetry, contour and semantics of vehicles respectively. SMM utilizes the vehicle symmetry constraints to avoid retaining symmetric patches and can thus select high-quality masked image patches and reduce information redundancy. CRM minimizes the probability distribution divergence between contour features and reconstructed features and can thus preserve holistic vehicle structure information during pixel-level reconstruction. SRM aligns image-text features through contrastive learning and cross-modal distillation to address the feature confusion caused by insufficient semantic understanding during masked reconstruction. To support the pre-training of VehicleMAE-V2, we construct Autobot4M, a large-scale dataset comprising approximately 4 million vehicle images and 12,693 text descriptions. Extensive experiments on five downstream tasks demonstrate the superior performance of VehicleMAE-V2.
- Abstract(参考訳): 車両中心の認識は、大規模監視システム、インテリジェント交通、自動運転など、多くのインテリジェントシステムにおいて重要な役割を担っている。
既存のアプローチでは、事前訓練中に車両関連の知識を効果的に学習することができないため、一般的な車両認識表現をモデル化する能力は不十分である。
この問題に対処するために,新しい車両中心の事前訓練型大型モデルである VehicleMAE-V2 を提案する。
マスクされたトークン再構築プロセスを導くために,車両関連マルチモーダルな事前構造を探索し,活用することにより,本手法は車両中心の知覚に対する一般化可能な表現を学習するモデルの能力を大幅に向上させることができる。
具体的には、SMM(Symmetry-Guided Mask Module)、CRM(Contour-Guided Representation Module)、SRM(Semantics-Guided Representation Module)を設計し、各車両の対称性、輪郭、セマンティクスを含む3種類の事前構造をトークン再構成に組み込む。
SMMは、車両対称性の制約を利用して対称パッチの保持を回避し、高品質なマスク付き画像パッチを選択し、情報の冗長性を低減できる。
CRMは輪郭特徴と再構成特徴との間の確率分布のばらつきを最小限に抑え,画素レベルの再構築時に全体像構造情報を保存できる。
SRMは、コントラスト学習とクロスモーダル蒸留を通じて画像テキストの特徴を整合させ、仮面再構築時に意味理解が不十分なことから生じる特徴の混乱に対処する。
VehicleMAE-V2の事前訓練を支援するために,約400万台の車両画像と12,693本のテキスト記述からなる大規模データセットであるAutobot4Mを構築した。
5つの下流タスクに関する大規模な実験は、VagerMAE-V2の優れた性能を示している。
関連論文リスト
- Structured Prompting and Multi-Agent Knowledge Distillation for Traffic Video Interpretation and Risk Inference [1.1470070927586018]
本稿では,高品質な交通シーンアノテーションとコンテキストリスク評価の自動生成を可能にする,新しい構造付きプロンプト・知識蒸留フレームワークを提案する。
我々のフレームワークは、2つの大きなビジョンランゲージモデル(VLM)を編成し、GPT-4oとo3-miniを構造化されたChain-of-Thought(CoT)戦略を用いてリッチで多視点出力を生成する。
VISTAという名前のコンパクトな3Bスケールモデルは、低解像度のトラフィックビデオを理解し、セマンティックに忠実でリスク対応のキャプションを生成することができる。
論文 参考訳(メタデータ) (2025-08-19T01:44:02Z) - Enhancing Vehicle Make and Model Recognition with 3D Attention Modules [1.4999444543328293]
自動車製造・モデル認識(VMMR)は、インテリジェントトランスポートシステムの重要なコンポーネントである。
本研究では,クラス間の類似性とクラス内変動に対処するアテンションモジュールを実装した。
提案モデルでは,アテンションモジュールを,畳み込みモデルの中間部分にある2つの異なる場所に統合する。
論文 参考訳(メタデータ) (2025-02-21T11:52:56Z) - AccidentBlip: Agent of Accident Warning based on MA-former [24.81148840857782]
AccidentBlipは視覚のみのフレームワークで、ビデオの各フレームを処理するために自設計のMotion Accident Transformer(MA-former)を使用している。
AccidentBlipは、DeepAccidentデータセット上の事故検出と予測タスクの両方のパフォーマンスを達成する。
また、V2VおよびV2Xシナリオにおける現在のSOTAメソッドよりも優れており、複雑な現実世界環境を理解するのに優れた能力を示している。
論文 参考訳(メタデータ) (2024-04-18T12:54:25Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Delving into Multi-modal Multi-task Foundation Models for Road Scene Understanding: From Learning Paradigm Perspectives [56.2139730920855]
本稿では,道路シーンに特化して設計されたMM-VUFMの系統解析について述べる。
本研究の目的は,タスク特化モデル,統合マルチモーダルモデル,統合マルチタスクモデル,基礎モデル推進技術など,共通プラクティスの包括的概要を提供することである。
我々は、クローズドループ駆動システム、解釈可能性、エンボディドドライブエージェント、世界モデルなど、重要な課題と今後のトレンドに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-02-05T12:47:09Z) - Structural Information Guided Multimodal Pre-training for
Vehicle-centric Perception [36.92036421490819]
そこで我々は,VagerMAEと呼ばれる新しい車両中心の事前学習フレームワークを提案する。
車両のスケッチラインを空間構造の形式として明示的に抽出し,車両の再建を誘導する。
大規模なデータセットは、約100万の車両画像と12693のテキスト情報を含むAutobot1Mと呼ばれるモデルを事前訓練するために構築されている。
論文 参考訳(メタデータ) (2023-12-15T14:10:21Z) - V2X-AHD:Vehicle-to-Everything Cooperation Perception via Asymmetric
Heterogenous Distillation Network [13.248981195106069]
車両間協調認識システム(V2X-AHD)を提案する。
この研究によると、V2X-AHDは3次元物体検出の精度を効果的に向上し、ネットワークパラメータの数を削減できる。
論文 参考訳(メタデータ) (2023-10-10T13:12:03Z) - Attentive Symmetric Autoencoder for Brain MRI Segmentation [56.02577247523737]
視覚変換器(ViT)をベースとした3次元脳MRIセグメンテーションタスクのための新しいアテンテーティブシンメトリオートエンコーダを提案する。
事前学習の段階では、提案するオートエンコーダがより注意を払って、勾配測定値に従って情報パッチを再構築する。
実験の結果,提案手法は最先端の自己教師付き学習法や医用画像分割モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-09-19T09:43:19Z) - SIM-Trans: Structure Information Modeling Transformer for Fine-grained
Visual Categorization [59.732036564862796]
本稿では,オブジェクト構造情報を変換器に組み込んだSIM-Trans(Structure Information Modeling Transformer)を提案する。
提案した2つのモジュールは軽量化されており、任意のトランスフォーマーネットワークにプラグインでき、エンドツーエンドで容易に訓練できる。
実験と解析により,提案したSIM-Transが細粒度視覚分類ベンチマークの最先端性能を達成することを示した。
論文 参考訳(メタデータ) (2022-08-31T03:00:07Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。