論文の概要: On the Viability of Monocular Depth Pre-training for Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2203.13987v4
- Date: Mon, 6 Nov 2023 04:41:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 02:09:41.172156
- Title: On the Viability of Monocular Depth Pre-training for Semantic
Segmentation
- Title(参考訳): セマンティクスセグメンテーションのための単眼深度事前学習の有効性について
- Authors: Dong Lao, Alex Wong, Samuel Lu and Stefano Soatto
- Abstract要約: 本研究では,1つの画像から深度を推定するための事前学習モデルと,意味的タスクのための事前学習モデルとの比較について検討する。
深度事前トレーニングは、平均5.8% mIoU と5.2% の精度で ImageNet の事前トレーニングと比較して性能を上回ることがわかった。
- 参考スコア(独自算出の注目度): 53.41879334938541
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We explore how pre-training a model to infer depth from a single image
compares to pre-training the model for a semantic task, e.g. ImageNet
classification, for the purpose of downstream transfer to semantic
segmentation. The question of whether pre-training on geometric tasks is viable
for downstream transfer to semantic tasks is important for two reasons, one
practical and the other scientific. In practice, if it were viable, one could
reduce pre-training costs and bias due to human annotation at scale. If,
however, it were not, then that would affirm human annotation as an inductive
vehicle so powerful to justify the annotation effort. Yet the bootstrapping
question would still be unanswered: How did the ability to assign labels to
semantically coherent regions emerge? If pre-training on a geometric task was
sufficient to prime a notion of 'object', leveraging the regularities of the
environment (what Gibson called 'detached objects'), that would reduce the gap
to semantic inference as a matter of aligning labels, which could be done with
few examples. To test these hypotheses, we have designed multiple controlled
experiments that require minimal fine-tuning, using common benchmarks such as
KITTI, Cityscapes, and NYU-V2: We explore different forms of supervision for
depth estimation, training pipelines, and data resolutions for semantic
fine-tuning. We find that depth pre-training exceeds performance relative to
ImageNet pre-training on average by 5.8% mIoU and 5.2% pixel accuracy.
Surprisingly, we find that optical flow estimation, which is a closely related
task to depth estimation as it optimizes the same photometric reprojection
error, is considerably less effective.
- Abstract(参考訳): 本研究では,1つの画像から深度を推定するための事前学習と,下流からセマンティックセグメンテーションへの変換を目的としたイメージネット分類などのセマンティックタスクのためのモデルの事前学習との比較について検討する。
幾何学的タスクの事前学習が意味的タスクへの下流移動に有効かどうかという問題は2つの理由において重要である。
実際には、もしそれが実現可能ならば、大規模な人間のアノテーションによる事前訓練コストとバイアスを削減できる。
しかし、もしそうでなければ、人間によるアノテーションは、そのアノテーションの努力を正当化するほど強力な帰納的手段であると断言するでしょう。
意味的に一貫性のある領域にラベルを割り当てる能力は、どのように出現したのでしょうか?
幾何学的タスクの事前学習が、環境の規則性(ギブソンが「切り離された物体」と呼んだもの)を活用する「対象」という概念を創り出すのに十分であれば、ラベルを整列する問題として意味推論のギャップを減らせることになる。
これらの仮説をテストするために、我々はkitti、cityscapes、nyu-v2のような一般的なベンチマークを使用して、最小の微調整を必要とする複数の制御された実験を設計した。
深度事前トレーニングは、平均5.8% mIoU と5.2% の精度で ImageNet の事前トレーニングと比較して性能を上回ることがわかった。
驚くべきことに、同じ測光再投射誤差を最適化する際の奥行き推定に密接に関連する光学的フロー推定は、かなり効果が低いことが判明した。
関連論文リスト
- GS-Pose: Category-Level Object Pose Estimation via Geometric and
Semantic Correspondence [5.500735640045456]
カテゴリーレベルのポーズ推定は、コンピュータビジョンやロボット工学における多くの潜在的な応用において難しい課題である。
本稿では,事前学習した基礎モデルから得られる幾何学的特徴と意味的特徴の両方を活用することを提案する。
これは、セマンティックな特徴がオブジェクトのテクスチャや外観に対して堅牢であるため、以前のメソッドよりもトレーニングするデータを大幅に少なくする。
論文 参考訳(メタデータ) (2023-11-23T02:35:38Z) - Less is More: On the Feature Redundancy of Pretrained Models When
Transferring to Few-shot Tasks [120.23328563831704]
事前訓練されたモデルを下流タスクに転送することは、ターゲットデータと線形探索を行うのと同じくらい簡単である。
線形探索では, 下流データが少ない場合に, 事前学習した特徴が極めて冗長であることを示す。
論文 参考訳(メタデータ) (2023-10-05T19:00:49Z) - Task-Robust Pre-Training for Worst-Case Downstream Adaptation [62.05108162160981]
プレトレーニングは下流のタスクに移行することで大きな成功を収めた。
本稿では,下流タスクに対する一様性能を保証するモデルについて,事前学習について考察する。
論文 参考訳(メタデータ) (2023-06-21T07:43:23Z) - SemHint-MD: Learning from Noisy Semantic Labels for Self-Supervised
Monocular Depth Estimation [19.229255297016635]
自己教師付き深度推定は、光度損失の勾配-局所性の問題により、局所的に最小限に抑えられる。
セマンティックセグメンテーションを活用して、ネットワークを局所的な最小限から切り離すための奥行きを高めるためのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-31T17:20:27Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Threshold-adaptive Unsupervised Focal Loss for Domain Adaptation of
Semantic Segmentation [25.626882426111198]
意味的セグメンテーションのための教師なしドメイン適応(UDA)は近年研究の注目を集めている。
本稿では,セマンティックセグメンテーションのための2段階エントロピーに基づくUDA手法を提案する。
本稿では,DeepLabV2を用いたSynTHIA-to-CityscapesとGTA5-to-Cityscapesにおける最先端の58.4%と59.6%のmIoUと,軽量BiSeNetを用いた競合性能を実現する。
論文 参考訳(メタデータ) (2022-08-23T03:48:48Z) - Plugging Self-Supervised Monocular Depth into Unsupervised Domain
Adaptation for Semantic Segmentation [19.859764556851434]
セマンティックセグメンテーションのためのUDAを改善するために,自己教師付き単眼深度推定手法を提案する。
我々の提案では,GTA5->CSベンチマークで最先端性能(58.8 mIoU)を達成することができる。
論文 参考訳(メタデータ) (2021-10-13T12:48:51Z) - Unsupervised Semantic Segmentation by Contrasting Object Mask Proposals [78.12377360145078]
画素埋め込みを学習するために、コントラスト最適化の目的として、予め決められた事前を取り入れた新しい2段階フレームワークを導入する。
これは、プロキシタスクやエンドツーエンドのクラスタリングに依存する既存の作業から大きく逸脱している。
特に、PASCALでラベル付き例の1%だけを用いて学習した表現を微調整すると、7.1% mIoUで教師付き ImageNet の事前トレーニングを上回ります。
論文 参考訳(メタデータ) (2021-02-11T18:54:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。