論文の概要: Naive-Student: Leveraging Semi-Supervised Learning in Video Sequences
for Urban Scene Segmentation
- arxiv url: http://arxiv.org/abs/2005.10266v4
- Date: Mon, 20 Jul 2020 03:40:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 05:50:25.977490
- Title: Naive-Student: Leveraging Semi-Supervised Learning in Video Sequences
for Urban Scene Segmentation
- Title(参考訳): Naive-Student: 都市シーンセグメンテーションのためのビデオシーケンスにおける半教師付き学習の活用
- Authors: Liang-Chieh Chen, Raphael Gontijo Lopes, Bowen Cheng, Maxwell D.
Collins, Ekin D. Cubuk, Barret Zoph, Hartwig Adam, Jonathon Shlens
- Abstract要約: 本研究では,未ラベル映像シーケンスと追加画像の半教師付き学習を利用して,都市景観セグメンテーションの性能を向上させることができるかどうかを問う。
我々は単にラベルのないデータに対して擬似ラベルを予測し、人間の注釈付きデータと擬似ラベル付きデータの両方でその後のモデルを訓練する。
我々のNaive-Studentモデルは、このような単純で効果的な反復的半教師付き学習で訓練され、3つのCityscapesベンチマークで最先端の結果を得る。
- 参考スコア(独自算出の注目度): 57.68890534164427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supervised learning in large discriminative models is a mainstay for modern
computer vision. Such an approach necessitates investing in large-scale
human-annotated datasets for achieving state-of-the-art results. In turn, the
efficacy of supervised learning may be limited by the size of the human
annotated dataset. This limitation is particularly notable for image
segmentation tasks, where the expense of human annotation is especially large,
yet large amounts of unlabeled data may exist. In this work, we ask if we may
leverage semi-supervised learning in unlabeled video sequences and extra images
to improve the performance on urban scene segmentation, simultaneously tackling
semantic, instance, and panoptic segmentation. The goal of this work is to
avoid the construction of sophisticated, learned architectures specific to
label propagation (e.g., patch matching and optical flow). Instead, we simply
predict pseudo-labels for the unlabeled data and train subsequent models with
both human-annotated and pseudo-labeled data. The procedure is iterated for
several times. As a result, our Naive-Student model, trained with such simple
yet effective iterative semi-supervised learning, attains state-of-the-art
results at all three Cityscapes benchmarks, reaching the performance of 67.8%
PQ, 42.6% AP, and 85.2% mIOU on the test set. We view this work as a notable
step towards building a simple procedure to harness unlabeled video sequences
and extra images to surpass state-of-the-art performance on core computer
vision tasks.
- Abstract(参考訳): 大規模識別モデルにおける教師付き学習は、現代のコンピュータビジョンの主流である。
このようなアプローチは、最先端の成果を得るために、大規模な人間の注釈付きデータセットへの投資を必要とする。
教師付き学習の有効性は、人間の注釈付きデータセットのサイズによって制限される可能性がある。
この制限は、人間のアノテーションのコストが特に大きいが、ラベルのない大量のデータが存在しているイメージセグメンテーションタスクで特に顕著である。
本研究では,未ラベル映像シーケンスと追加画像の半教師付き学習を活用して,都市シーンセグメンテーションの性能向上,セマンティックス,パノプティックスセグメンテーションの同時対応,などを提案する。
この研究の目的は、ラベルの伝搬(例えば、パッチマッチングと光の流れ)に特化した洗練された学習されたアーキテクチャの構築を避けることである。
代わりに、ラベルなしデータの擬似ラベルを予測し、人間の注釈付きデータと擬似ラベル付きデータの両方でその後のモデルを訓練する。
この手順は何度も繰り返される。
その結果、単純な、かつ効果的な半教師付き学習で訓練されたnaive-sudentモデルは、3つのcityscapesベンチマーク全てで最先端の結果を達成し、テストセットで67.8%のpq、42.6%のap、85.2%のmiouの性能に達した。
我々は、この作業が、未ラベルのビデオシーケンスと余分な画像を利用して、コアコンピュータビジョンタスクにおける最先端のパフォーマンスを上回る簡単な手順を構築するための注目すべきステップであると考えている。
関連論文リスト
- HomE: Homography-Equivariant Video Representation Learning [62.89516761473129]
マルチビュービデオの表現学習のための新しい手法を提案する。
提案手法は異なる視点間の暗黙的なマッピングを学習し,近隣の視点間のホモグラフィ関係を維持する表現空間を決定づける。
動作分類では,UCF101データセットの96.4%の3倍精度が得られた。
論文 参考訳(メタデータ) (2023-06-02T15:37:43Z) - iBoot: Image-bootstrapped Self-Supervised Video Representation Learning [45.845595749486215]
ビデオデータセットは通常、画像データセットほど大きくない。
本稿では,映像表現学習フレームワークにおいて,自己や言語を事前訓練した強力な画像ベースモデルを提案する。
提案アルゴリズムはより少ないエポックと少ないバッチでより効率的に学習できることが示されている。
論文 参考訳(メタデータ) (2022-06-16T17:42:48Z) - A Pixel-Level Meta-Learner for Weakly Supervised Few-Shot Semantic
Segmentation [40.27705176115985]
Few-shotのセマンティックセマンティックセグメンテーションは、興味のある新しいクラスのために、地上の真実のピクセルレベルのラベルを持つ少数の画像しか利用できない学習タスクに対処する。
限られたデータとその意味ラベルから擬似画素レベルのセグメンテーションマスクを予測するメタラーニングフレームワークを提案する。
提案する学習モデルは,画素レベルのメタラーナーとみなすことができる。
論文 参考訳(メタデータ) (2021-11-02T08:28:11Z) - Hierarchical Self-Supervised Learning for Medical Image Segmentation
Based on Multi-Domain Data Aggregation [23.616336382437275]
医用画像分割のための階層型自己監督学習(HSSL)を提案する。
まず、いくつかの医学的課題からデータセットを収集し、自己教師付きでネットワークを事前訓練し、最後にラベル付きデータに微調整します。
スクラッチから学習するのに比べ、新しい手法は様々なタスクにおいてより良いパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2021-07-10T18:17:57Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Learning to Track Instances without Video Annotations [85.9865889886669]
本稿では,ラベル付き画像データセットとラベルなしビデオシーケンスのみを用いたインスタンス追跡ネットワークを学習する,新しい半教師付きフレームワークを提案する。
画像のみを訓練しても,学習した特徴表現は出現の変動にロバストであることが判明した。
さらに、このモジュールを単一ステージのインスタンスセグメンテーションとポーズ推定フレームワークに統合します。
論文 参考訳(メタデータ) (2021-04-01T06:47:41Z) - Visual Distant Supervision for Scene Graph Generation [66.10579690929623]
シーングラフモデルは通常、大量のラベル付きデータを人間のアノテーションで教師付き学習する必要がある。
本研究では,人間ラベルデータを用いずにシーングラフモデルを訓練できる視覚関係学習の新しいパラダイムである視覚遠方監視を提案する。
包括的な実験結果から、我々の遠隔監視モデルは、弱い監督と半監督のベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-03-29T06:35:24Z) - Improving Semantic Segmentation via Self-Training [75.07114899941095]
半教師付きアプローチ,特に自己学習パラダイムを用いて,最先端の成果を得ることができることを示す。
まず、ラベル付きデータに基づいて教師モデルを訓練し、次にラベルなしデータの大規模なセット上で擬似ラベルを生成する。
私たちの堅牢なトレーニングフレームワークは、人名と擬似ラベルを共同で消化し、Cityscapes、CamVid、KITTIデータセット上で最高のパフォーマンスを達成することができます。
論文 参考訳(メタデータ) (2020-04-30T17:09:17Z) - Semi-supervised few-shot learning for medical image segmentation [21.349705243254423]
大規模な注釈付きデータセットの必要性を緩和する最近の試みは、数ショットの学習パラダイムの下でトレーニング戦略を開発した。
セマンティックセグメンテーションのための新しい数発の学習フレームワークを提案し,各エピソードでラベルのない画像も利用できるようにした。
エピソードトレーニングにおけるラベルなしのサロゲートタスクを含めると、より強力な特徴表現がもたらされることを示す。
論文 参考訳(メタデータ) (2020-03-18T20:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。