論文の概要: Q-YOLOP: Quantization-aware You Only Look Once for Panoptic Driving
Perception
- arxiv url: http://arxiv.org/abs/2307.04537v1
- Date: Mon, 10 Jul 2023 13:02:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 13:03:03.735868
- Title: Q-YOLOP: Quantization-aware You Only Look Once for Panoptic Driving
Perception
- Title(参考訳): Q-YOLOP: パノプティカル・ドライビング・パーセプティションに一度しか見えない量子化認識
- Authors: Chi-Chih Chang, Wei-Cheng Lin, Pei-Shuo Wang, Sheng-Feng Yu, Yu-Chen
Lu, Kuan-Cheng Lin and Kai-Chiang Wu
- Abstract要約: 本稿では, 物体検出, 乾燥領域分割, レーン線分割のための効率的かつ定量的なパン光学駆動認識モデル(Q-YOLOP)を提案する。
提案モデルでは,オブジェクト検出用 mAP@0.5 とセグメンテーション用 mIoU の mAP@0.5 およびセグメンテーション用 mIoU を用いて,最先端性能を実現する。
- 参考スコア(独自算出の注目度): 6.3709120604927945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we present an efficient and quantization-aware panoptic driving
perception model (Q- YOLOP) for object detection, drivable area segmentation,
and lane line segmentation, in the context of autonomous driving. Our model
employs the Efficient Layer Aggregation Network (ELAN) as its backbone and
task-specific heads for each task. We employ a four-stage training process that
includes pretraining on the BDD100K dataset, finetuning on both the BDD100K and
iVS datasets, and quantization-aware training (QAT) on BDD100K. During the
training process, we use powerful data augmentation techniques, such as random
perspective and mosaic, and train the model on a combination of the BDD100K and
iVS datasets. Both strategies enhance the model's generalization capabilities.
The proposed model achieves state-of-the-art performance with an mAP@0.5 of
0.622 for object detection and an mIoU of 0.612 for segmentation, while
maintaining low computational and memory requirements.
- Abstract(参考訳): 本研究では, 自律運転の文脈において, 物体検出, 乾燥領域分割, レーン線分割のための効率的かつ定量的なパノプティクス駆動認識モデル(Q-YOLOP)を提案する。
本モデルでは,タスク毎のバックボーンとタスク固有のヘッダとして,ELAN(Efficient Layer Aggregation Network)を採用している。
BDD100Kデータセットの事前トレーニング、BDD100KデータセットとiVSデータセットの微調整、BDD100K上の量子化対応トレーニング(QAT)を含む4段階のトレーニングプロセスを採用しています。
トレーニングプロセスでは、ランダムな視点やモザイクといった強力なデータ拡張技術を使用し、BDD100KとiVSデータセットの組み合わせでモデルをトレーニングします。
どちらの戦略もモデルの一般化能力を高める。
提案モデルは,オブジェクト検出のためのmap@0.5とセグメンテーションのための0.612のmiouを低計算とメモリ要件を維持しつつ,最先端の性能を実現する。
関連論文リスト
- Efficiency for Free: Ideal Data Are Transportable Representations [12.358393766570732]
最適化と一般化の観点から,データの効率性について検討する。
本稿では,効率的なデータの生成と活用を促進するRepresentation Learning Accelerator (algopt)を提案する。
論文 参考訳(メタデータ) (2024-05-23T15:06:02Z) - No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance [68.18779562801762]
マルチモーダルモデルは、下流の"ゼロショット"のパフォーマンスを線形改善するために、指数関数的に多くのデータを必要とする。
本研究は,大規模な訓練パラダイムの下での「ゼロショット」一般化能力の鍵となる訓練データに対する指数関数的要求を明らかにする。
論文 参考訳(メタデータ) (2024-04-04T17:58:02Z) - Augment Before Copy-Paste: Data and Memory Efficiency-Oriented Instance Segmentation Framework for Sport-scenes [7.765333471208582]
Visual Inductive Priors Challenge (VIPriors2023)では、参加者はバスケットボールコートで個人を正確に特定できるモデルを訓練しなければならない。
本稿では,視覚的インダクティブな前流伝搬に基づくメモリ効率インスタンスフレームワークを提案する。
実験では、限られたデータとメモリの制約の下でも、我々のモデルを有望な性能を示す。
論文 参考訳(メタデータ) (2024-03-18T08:44:40Z) - Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:00:23Z) - SeiT++: Masked Token Modeling Improves Storage-efficient Training [36.95646819348317]
近年のDeep Neural Network(DNN)モデルでは,コンピュータビジョンタスクのパフォーマンスが大幅に向上している。
高度に一般化可能で高性能なビジョンモデルを実現するには、拡張データセットが必要である。
SeiTによる最近のブレークスルーは、Vector-Quantized (VQ)特徴ベクトル(トークン)を視覚分類のためのネットワーク入力として使用することを提案した。
本稿では,自己指導型事前学習のためのMasked Token Modeling (MTM)を統合し,SeyTを拡張した。
論文 参考訳(メタデータ) (2023-12-15T04:11:34Z) - Developing a Resource-Constraint EdgeAI model for Surface Defect
Detection [1.338174941551702]
資源制約のあるエッジ環境におけるデバイス上でのトレーニングのために,Xceptionから修正した軽量なEdgeAIアーキテクチャを提案する。
我々はPCB欠陥検出タスクにおけるモデルの評価を行い、その性能を既存の軽量モデルと比較した。
本手法は他のリソース制約アプリケーションにも適用できるが,性能は高い。
論文 参考訳(メタデータ) (2023-12-04T15:28:31Z) - You Only Look at Once for Real-time and Generic Multi-Task [20.61477620156465]
A-YOLOMは適応的でリアルタイムで軽量なマルチタスクモデルである。
我々は,統一的で合理化されたセグメンテーション構造を持つエンドツーエンドのマルチタスクモデルを開発した。
BDD100kデータセットで競合的な結果が得られます。
論文 参考訳(メタデータ) (2023-10-02T21:09:43Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。