論文の概要: Mix-Teaching: A Simple, Unified and Effective Semi-Supervised Learning
Framework for Monocular 3D Object Detection
- arxiv url: http://arxiv.org/abs/2207.04448v1
- Date: Sun, 10 Jul 2022 12:07:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 14:59:53.803011
- Title: Mix-Teaching: A Simple, Unified and Effective Semi-Supervised Learning
Framework for Monocular 3D Object Detection
- Title(参考訳): mix-teaching:単眼3次元物体検出のためのシンプルで統一的で効果的な半教師付き学習フレームワーク
- Authors: Lei Yang, Xinyu Zhang, Li Wang, Minghan Zhu, Chuang Zhang, Jun Li
- Abstract要約: Mix-Teachingは、ラベル付き画像とラベルなし画像の両方をトレーニング段階で使用するための効果的な半教師付き学習フレームワークである。
Mix-Teaching は MonoFlex と GUPNet を KITTI データセット上で様々なラベル付け比率で大幅に改善している。
- 参考スコア(独自算出の注目度): 22.074959519526605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular 3D object detection is an essential perception task for autonomous
driving. However, the high reliance on large-scale labeled data make it costly
and time-consuming during model optimization. To reduce such over-reliance on
human annotations, we propose Mix-Teaching, an effective semi-supervised
learning framework applicable to employ both labeled and unlabeled images in
training stage. Mix-Teaching first generates pseudo-labels for unlabeled images
by self-training. The student model is then trained on the mixed images
possessing much more intensive and precise labeling by merging instance-level
image patches into empty backgrounds or labeled images. This is the first to
break the image-level limitation and put high-quality pseudo labels from multi
frames into one image for semi-supervised training. Besides, as a result of the
misalignment between confidence score and localization quality, it's hard to
discriminate high-quality pseudo-labels from noisy predictions using only
confidence-based criterion. To that end, we further introduce an
uncertainty-based filter to help select reliable pseudo boxes for the above
mixing operation. To the best of our knowledge, this is the first unified SSL
framework for monocular 3D object detection. Mix-Teaching consistently improves
MonoFlex and GUPNet by significant margins under various labeling ratios on
KITTI dataset. For example, our method achieves around +6.34% AP@0.7
improvement against the GUPNet baseline on validation set when using only 10%
labeled data. Besides, by leveraging full training set and the additional 48K
raw images of KITTI, it can further improve the MonoFlex by +4.65% improvement
on AP@0.7 for car detection, reaching 18.54% AP@0.7, which ranks the 1st place
among all monocular based methods on KITTI test leaderboard. The code and
pretrained models will be released at
https://github.com/yanglei18/Mix-Teaching.
- Abstract(参考訳): モノキュラー3d物体検出は、自動運転に不可欠な知覚課題である。
しかし、大規模ラベル付きデータへの高い依存は、モデル最適化においてコストと時間を要する。
そこで本研究では,ラベル付き画像とラベル付き画像の両方を訓練段階で使用するための効果的な半教師付き学習フレームワークであるmix-teachingを提案する。
Mix-Teachingはまず、自己学習によりラベルなし画像のための擬似ラベルを生成する。
学生モデルは、インスタンスレベルのイメージパッチを空の背景やラベル付きイメージにマージすることで、より集中的で正確なラベル付けを持つ混合イメージでトレーニングされる。
これは、画像レベルの制限を破り、高品質な擬似ラベルを複数のフレームから1つの画像にまとめ、半教師付きトレーニングを行う最初の方法である。
また、信頼スコアとローカライゼーション品質の相違により、信頼基準のみを用いてノイズ予測から高品質な擬似ラベルを識別することは困難である。
そこで我々はさらに不確実性に基づくフィルタを導入し、上記の混合動作に対する信頼性の高い疑似ボックスの選択を支援する。
我々の知る限りでは、これはモノクロ3Dオブジェクト検出のための初めての統合SSLフレームワークである。
Mix-Teaching は MonoFlex と GUPNet を KITTI データセット上で様々なラベル付け比率で大幅に改善している。
例えば、10%のラベル付きデータを使用すると、検証セットでgupnetのベースラインに対して約6.34%のap@0.7改善が得られます。
さらに、完全なトレーニングセットと48krawイメージのkittiを活用することで、自動車検出のためのap@0.7の+4.65%の改善により、monoflexをさらに改善することができ、18.54%のap@0.7に達する。
コードと事前トレーニングされたモデルはhttps://github.com/yanglei18/mix-teachingでリリースされる。
関連論文リスト
- Adaptive Mix for Semi-Supervised Medical Image Segmentation [22.69909762038458]
本稿では,画像混合のための適応混合アルゴリズム(AdaMix)を提案する。
AdaMix-ST, AdaMix-MT, AdaMix-CTの3つのフレームワークを半教師付き医用画像分割用として開発した。
論文 参考訳(メタデータ) (2024-07-31T13:19:39Z) - Diffusion Models and Semi-Supervised Learners Benefit Mutually with Few
Labels [47.15381781274115]
二重擬似訓練(DPT)と呼ばれる簡易かつ効果的な訓練戦略を提案する。
DPTは、擬似ラベルを予測するために部分的にラベル付きデータで分類器を訓練し、擬似ラベルを使って条件付き生成モデルを訓練して擬似画像を生成する。
クラスごとに1つまたは2つのラベルで、DPTはImageNet 256x256でFr'echet Inception Distance (FID)スコアが3.08または2.52に達する。
論文 参考訳(メタデータ) (2023-02-21T10:24:53Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - mc-BEiT: Multi-choice Discretization for Image BERT Pre-training [52.04866462439979]
Image BERT pre-training with masked image modeling (MIM)は、自己教師付き表現学習に対処する一般的な実践である。
改良されたBERTスタイルの画像事前学習手法であるmc-BEiTを導入する。
論文 参考訳(メタデータ) (2022-03-29T09:08:18Z) - Mixed Supervision Learning for Whole Slide Image Classification [88.31842052998319]
超高解像度画像のための混合監視学習フレームワークを提案する。
パッチトレーニングの段階では、このフレームワークは、粗いイメージレベルのラベルを使用して、自己教師付き学習を洗練することができる。
画素レベルの偽陽性と偽陰性を抑制するための包括的な戦略が提案されている。
論文 参考訳(メタデータ) (2021-07-02T09:46:06Z) - Re-labeling ImageNet: from Single to Multi-Labels, from Global to
Localized Labels [34.13899937264952]
ImageNetは間違いなく最も人気のある画像分類ベンチマークですが、ラベルノイズのかなりのレベルを持つものでもあります。
近年の研究では、シングルラベルベンチマークと仮定されているにもかかわらず、多くのサンプルが複数のクラスを含んでいることが示されている。
私たちは、単一ラベルアノテーションと効果的に複数のラベル画像の間のミスマッチは、ランダムな作物が適用されるトレーニングセットアップにおいて同様に問題であると主張しています。
論文 参考訳(メタデータ) (2021-01-13T11:55:58Z) - 3DIoUMatch: Leveraging IoU Prediction for Semi-Supervised 3D Object
Detection [76.42897462051067]
3DIoUMatchは屋内および屋外の場面両方に適当3D目的の検出のための新しい半監視された方法です。
教師と教師の相互学習の枠組みを活用し,ラベル付けされていない列車の情報を擬似ラベルの形で伝達する。
本手法は,ScanNetとSUN-RGBDのベンチマークにおける最先端の手法を,全てのラベル比で有意差で継続的に改善する。
論文 参考訳(メタデータ) (2020-12-08T11:06:26Z) - Un-Mix: Rethinking Image Mixtures for Unsupervised Visual Representation
Learning [108.999497144296]
近年の先進的な教師なし学習手法では,同じ画像から2つの「ビュー」を学習表現として比較するために,サイムズ様の枠組みを用いている。
この研究は、教師なし学習においてラベル空間上の距離の概念を巻き込み、正対と負対のソフトな類似度をモデルに認識させることを目的としている。
その概念的単純さにもかかわらず、この解 -- 教師なし画像混合(Un-Mix)により、変換された入力と対応する新しいラベル空間からより微妙でより堅牢で一般化された表現を学習できることを実証的に示す。
論文 参考訳(メタデータ) (2020-03-11T17:59:04Z) - FixMatch: Simplifying Semi-Supervised Learning with Consistency and
Confidence [93.91751021370638]
半教師付き学習(SSL)は、ラベルのないデータを活用してモデルの性能を向上させる効果的な手段を提供する。
本稿では、整合正則化と擬似ラベル付けという2つの共通SSL手法の単純な組み合わせのパワーを実証する。
筆者らのアルゴリズムであるFixMatchは、まず、弱拡張未ラベル画像上のモデルの予測を用いて擬似ラベルを生成する。
論文 参考訳(メタデータ) (2020-01-21T18:32:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。