論文の概要: An Effective Two-stage Training Paradigm Detector for Small Dataset
- arxiv url: http://arxiv.org/abs/2309.05652v1
- Date: Mon, 11 Sep 2023 17:43:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 11:28:49.676921
- Title: An Effective Two-stage Training Paradigm Detector for Small Dataset
- Title(参考訳): 小型データセットのための効果的な2段階学習パラダイム検出器
- Authors: Zheng Wang, Dong Xie, Hanzhi Wang, Jiang Tian
- Abstract要約: YOLOv8のバックボーンはマスク画像モデリング技術を用いてエンコーダとして事前訓練されている。
テスト段階では、各モデルを強化するためにテスト時間拡張(TTA)が使用され、さらに性能を高めるために重み付きボックス融合(WBF)が実装される。
良く設計された構造で、私たちのアプローチはDelftBikesテストセットで0.50から0.95までの平均精度を30.4%達成し、リーダーボードで4位になった。
- 参考スコア(独自算出の注目度): 13.227589864946477
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning from the limited amount of labeled data to the pre-train model has
always been viewed as a challenging task. In this report, an effective and
robust solution, the two-stage training paradigm YOLOv8 detector (TP-YOLOv8),
is designed for the object detection track in VIPriors Challenge 2023. First,
the backbone of YOLOv8 is pre-trained as the encoder using the masked image
modeling technique. Then the detector is fine-tuned with elaborate
augmentations. During the test stage, test-time augmentation (TTA) is used to
enhance each model, and weighted box fusion (WBF) is implemented to further
boost the performance. With the well-designed structure, our approach has
achieved 30.4% average precision from 0.50 to 0.95 on the DelftBikes test set,
ranking 4th on the leaderboard.
- Abstract(参考訳): ラベル付きデータの限られた量から事前トレインモデルへの学習は、常に困難なタスクと見なされてきた。
本報告では,VIPriors Challenge 2023において,物体検出のための2段階トレーニングパラダイムYOLOv8検出器(TP-YOLOv8)を設計した。
まず、YOLOv8のバックボーンをマスク画像モデリング技術を用いてエンコーダとして事前訓練する。
その後、検出器は精巧な拡張で微調整される。
テスト段階では、各モデルを強化するためにテスト時間拡張(TTA)を使用し、さらに性能を高めるために重み付きボックス融合(WBF)を実装する。
良く設計された構造で、私たちのアプローチはDelftBikesテストセットの0.50から0.95までの平均精度を30.4%達成しました。
関連論文リスト
- Deep Learning Models for UAV-Assisted Bridge Inspection: A YOLO Benchmark Analysis [0.41942958779358674]
最新の4種類のYOLO(YOLOv5, YOLOv6, YOLOv7, YOLOv8)に属する23のモデルをベンチマークする。
精度と処理速度の最適なバランスを提供するモデルとして, YOLOv8n, YOLOv7tiny, YOLOv6m, YOLOv6mを同定した。
その結果,UAVのモデル選択プロセスが促進され,より効率的で信頼性の高い橋梁検査が可能となった。
論文 参考訳(メタデータ) (2024-11-07T07:03:40Z) - Optimizing YOLO Architectures for Optimal Road Damage Detection and Classification: A Comparative Study from YOLOv7 to YOLOv10 [0.0]
本稿では,ディープラーニングモデルを用いた道路損傷検出のための総合ワークフローを提案する。
ハードウェアの制約を満たすため、大きな画像が収穫され、軽量モデルが利用される。
提案手法では,コーディネートアテンションレイヤを備えたカスタムYOLOv7モデルや,Tiny YOLOv7モデルなど,複数のモデルアーキテクチャを採用している。
論文 参考訳(メタデータ) (2024-10-10T22:55:12Z) - Self-Updating Vehicle Monitoring Framework Employing Distributed Acoustic Sensing towards Real-World Settings [5.306938463648908]
本稿では,都市環境に合わせて,リアルタイムな半教師付き車両監視フレームワークを提案する。
初期トレーニングにはわずかな手動ラベルしか必要とせず、モデル改善のためにラベル付けされていないデータを活用する。
車両の走行速度の異なる1台の車両を追尾するために、車両の軌跡形状を取り入れた新しい先行損失を提案する。
論文 参考訳(メタデータ) (2024-09-16T13:10:58Z) - DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning [61.10299147201369]
本稿では,Wild デバイス制御エージェントをトレーニングするための新しい自律型 RL 手法である DigiRL を提案する。
VLMベースの評価器を備えた,スケーラブルで並列化可能なAndroid学習環境を構築する。
我々はAndroid-in-the-Wildデータセットを使用してDigiRLの有効性を実証し、RLでトレーニングした1.3B VLMは49.5%の絶対改善を実現した。
論文 参考訳(メタデータ) (2024-06-14T17:49:55Z) - An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training [51.622652121580394]
Masked Image Modeling (MIM) Pre-training for Large-scale Vision Transformer (ViTs) は、学習した自己教師型ViT機能に加えて、下流での有望なパフォーマンスを実現する。
本稿では,テキストテキストレメリーで軽量なViTの微調整性能が,この事前学習パラダイムの恩恵を受けるかどうかを問う。
バニラ/階層設計(5.7M$/6.5M$)による純軽量ViTの蒸留による事前トレーニングは、ImageNet-1で79.4%$/78.9%の精度で達成できる。
論文 参考訳(メタデータ) (2024-04-18T14:14:44Z) - Spanning Training Progress: Temporal Dual-Depth Scoring (TDDS) for Enhanced Dataset Pruning [50.809769498312434]
我々は、時間的デュアルディープス・スコーリング(TDDS)と呼ばれる新しいデータセット・プルーニング手法を提案する。
本手法は,10%のトレーニングデータで54.51%の精度を達成し,ランダム選択を7.83%以上,他の比較手法を12.69%以上上回る結果を得た。
論文 参考訳(メタデータ) (2023-11-22T03:45:30Z) - DEYOv3: DETR with YOLO for Real-time Object Detection [0.0]
ステップ・バイ・ステップ・トレーニング(Step-by-step training)と呼ばれる新しいトレーニング手法を提案する。
第1段階では、一対多で事前訓練されたYOLO検出器を使用して、エンドツーエンド検出器を初期化する。
第2段階では、バックボーンとエンコーダはDETRのようなモデルと一致しているが、検出器のみをゼロから訓練する必要がある。
論文 参考訳(メタデータ) (2023-09-21T07:49:07Z) - Q-YOLOP: Quantization-aware You Only Look Once for Panoptic Driving
Perception [6.3709120604927945]
本稿では, 物体検出, 乾燥領域分割, レーン線分割のための効率的かつ定量的なパン光学駆動認識モデル(Q-YOLOP)を提案する。
提案モデルでは,オブジェクト検出用 mAP@0.5 とセグメンテーション用 mIoU の mAP@0.5 およびセグメンテーション用 mIoU を用いて,最先端性能を実現する。
論文 参考訳(メタデータ) (2023-07-10T13:02:46Z) - To be Critical: Self-Calibrated Weakly Supervised Learning for Salient
Object Detection [95.21700830273221]
弱教師付き有色物体検出(WSOD)は,画像レベルのアノテーションを用いた有色度モデルの開発を目的としている。
擬似ラベルとネットワーク予測の相互校正ループを明確に設定し,自己校正学習戦略を提案する。
十分に整合したアノテーションを持つはるかに小さなデータセットであっても、モデルがより優れたパフォーマンスと一般化性を達成するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-04T02:45:22Z) - Workshop on Autonomous Driving at CVPR 2021: Technical Report for
Streaming Perception Challenge [57.647371468876116]
本稿では,現実的な自律運転シナリオのためのリアルタイム2次元物体検出システムについて紹介する。
私たちの検出器は、YOLOXと呼ばれる新しい設計のYOLOモデルで構築されています。
Argoverse-HDデータセットでは,検出のみのトラック/トラックで2位を7.8/6.1上回る41.0ストリーミングAPを達成した。
論文 参考訳(メタデータ) (2021-07-27T06:36:06Z) - End-to-End Semi-Supervised Object Detection with Soft Teacher [63.26266730447914]
本稿では,従来の複雑な多段階法とは対照的に,終端から終端までの半教師付き物体検出手法を提案する。
提案手法は, 種々のラベル付け比において, 従来手法よりも大きなマージンで性能を向上する。
最先端のSwin Transformerベースの物体検出器では、検出精度を+1.5 mAPで大幅に向上させることができる。
論文 参考訳(メタデータ) (2021-06-16T17:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。