論文の概要: Does Monocular Depth Estimation Provide Better Pre-training than
Classification for Semantic Segmentation?
- arxiv url: http://arxiv.org/abs/2203.13987v1
- Date: Sat, 26 Mar 2022 04:27:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-03 02:27:07.431817
- Title: Does Monocular Depth Estimation Provide Better Pre-training than
Classification for Semantic Segmentation?
- Title(参考訳): 単眼深度推定はセマンティックセグメンテーションの分類よりも事前訓練が優れているか?
- Authors: Dong Lao, Alex Wong and Stefano Soatto
- Abstract要約: ラベルなしビデオからの深度推定が事前学習に役立てる可能性があるという仮説を検証した。
分類に基づく事前学習よりも5.7% mIoU と4.1% の精度が向上する事前学習方式を提案する。
- 参考スコア(独自算出の注目度): 74.23035102708121
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training a deep neural network for semantic segmentation is labor-intensive,
so it is common to pre-train it for a different task, and then fine-tune it
with a small annotated dataset. State-of-the-art methods use image
classification for pre-training, which introduces uncontrolled biases. We test
the hypothesis that depth estimation from unlabeled videos may provide better
pre-training. Despite the absence of any semantic information, we argue that
estimating scene geometry is closer to the task of semantic segmentation than
classifying whole images into semantic classes. Since analytical validation is
intractable, we test the hypothesis empirically by introducing a pre-training
scheme that yields an improvement of 5.7% mIoU and 4.1% pixel accuracy over
classification-based pre-training. While annotation is not needed for
pre-training, it is needed for testing the hypothesis. We use the KITTI
(outdoor) and NYU-V2 (indoor) benchmarks to that end, and provide an extensive
discussion of the benefits and limitations of the proposed scheme in relation
to existing unsupervised, self-supervised, and semi-supervised pre-training
protocols.
- Abstract(参考訳): セマンティックセグメンテーションのためのディープニューラルネットワークのトレーニングは、労力を要するため、別のタスクのために事前トレーニングし、小さな注釈付きデータセットで微調整するのが一般的です。
state-of-the-artメソッドは、未制御バイアスを導入する事前トレーニングに画像分類を使用する。
ラベルなしビデオからの深度推定が事前学習に役立てる可能性があるという仮説を検証した。
セマンティックな情報がないにもかかわらず、画像全体をセマンティッククラスに分類するよりも、シーン幾何学を推定することはセマンティックセマンティックセマンティクスの課題に近いと論じる。
解析的検証は難易度が高いため,分類に基づく事前学習よりも5.7% mIoU と4.1% の精度を向上する事前学習スキームを導入することにより,仮説を実証的に検証する。
事前トレーニングにはアノテーションは必要ありませんが、仮説をテストするには必要です。
その目的のために,kitti (outdoor) と nyu-v2 (indoor) ベンチマークを用い,既存の非教師なし,自己教師なし,半教師なしの事前学習プロトコルに関する提案手法の利点と限界について幅広い議論を行った。
関連論文リスト
- GS-Pose: Category-Level Object Pose Estimation via Geometric and
Semantic Correspondence [5.500735640045456]
カテゴリーレベルのポーズ推定は、コンピュータビジョンやロボット工学における多くの潜在的な応用において難しい課題である。
本稿では,事前学習した基礎モデルから得られる幾何学的特徴と意味的特徴の両方を活用することを提案する。
これは、セマンティックな特徴がオブジェクトのテクスチャや外観に対して堅牢であるため、以前のメソッドよりもトレーニングするデータを大幅に少なくする。
論文 参考訳(メタデータ) (2023-11-23T02:35:38Z) - Less is More: On the Feature Redundancy of Pretrained Models When
Transferring to Few-shot Tasks [120.23328563831704]
事前訓練されたモデルを下流タスクに転送することは、ターゲットデータと線形探索を行うのと同じくらい簡単である。
線形探索では, 下流データが少ない場合に, 事前学習した特徴が極めて冗長であることを示す。
論文 参考訳(メタデータ) (2023-10-05T19:00:49Z) - Task-Robust Pre-Training for Worst-Case Downstream Adaptation [62.05108162160981]
プレトレーニングは下流のタスクに移行することで大きな成功を収めた。
本稿では,下流タスクに対する一様性能を保証するモデルについて,事前学習について考察する。
論文 参考訳(メタデータ) (2023-06-21T07:43:23Z) - SemHint-MD: Learning from Noisy Semantic Labels for Self-Supervised
Monocular Depth Estimation [19.229255297016635]
自己教師付き深度推定は、光度損失の勾配-局所性の問題により、局所的に最小限に抑えられる。
セマンティックセグメンテーションを活用して、ネットワークを局所的な最小限から切り離すための奥行きを高めるためのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-31T17:20:27Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Threshold-adaptive Unsupervised Focal Loss for Domain Adaptation of
Semantic Segmentation [25.626882426111198]
意味的セグメンテーションのための教師なしドメイン適応(UDA)は近年研究の注目を集めている。
本稿では,セマンティックセグメンテーションのための2段階エントロピーに基づくUDA手法を提案する。
本稿では,DeepLabV2を用いたSynTHIA-to-CityscapesとGTA5-to-Cityscapesにおける最先端の58.4%と59.6%のmIoUと,軽量BiSeNetを用いた競合性能を実現する。
論文 参考訳(メタデータ) (2022-08-23T03:48:48Z) - Plugging Self-Supervised Monocular Depth into Unsupervised Domain
Adaptation for Semantic Segmentation [19.859764556851434]
セマンティックセグメンテーションのためのUDAを改善するために,自己教師付き単眼深度推定手法を提案する。
我々の提案では,GTA5->CSベンチマークで最先端性能(58.8 mIoU)を達成することができる。
論文 参考訳(メタデータ) (2021-10-13T12:48:51Z) - Unsupervised Semantic Segmentation by Contrasting Object Mask Proposals [78.12377360145078]
画素埋め込みを学習するために、コントラスト最適化の目的として、予め決められた事前を取り入れた新しい2段階フレームワークを導入する。
これは、プロキシタスクやエンドツーエンドのクラスタリングに依存する既存の作業から大きく逸脱している。
特に、PASCALでラベル付き例の1%だけを用いて学習した表現を微調整すると、7.1% mIoUで教師付き ImageNet の事前トレーニングを上回ります。
論文 参考訳(メタデータ) (2021-02-11T18:54:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。