Fugu-MT 論文翻訳(概要): Does Monocular Depth Estimation Provide Better Pre-training than Classification for Semantic Segmentation?

論文の概要: Does Monocular Depth Estimation Provide Better Pre-training than Classification for Semantic Segmentation?

arxiv url: http://arxiv.org/abs/2203.13987v1
Date: Sat, 26 Mar 2022 04:27:28 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-03 02:27:07.431817
Title: Does Monocular Depth Estimation Provide Better Pre-training than Classification for Semantic Segmentation?
Title（参考訳）: 単眼深度推定はセマンティックセグメンテーションの分類よりも事前訓練が優れているか?
Authors: Dong Lao, Alex Wong and Stefano Soatto
Abstract要約: ラベルなしビデオからの深度推定が事前学習に役立てる可能性があるという仮説を検証した。分類に基づく事前学習よりも5.7% mIoU と4.1% の精度が向上する事前学習方式を提案する。
参考スコア（独自算出の注目度）: 74.23035102708121
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Training a deep neural network for semantic segmentation is labor-intensive, so it is common to pre-train it for a different task, and then fine-tune it with a small annotated dataset. State-of-the-art methods use image classification for pre-training, which introduces uncontrolled biases. We test the hypothesis that depth estimation from unlabeled videos may provide better pre-training. Despite the absence of any semantic information, we argue that estimating scene geometry is closer to the task of semantic segmentation than classifying whole images into semantic classes. Since analytical validation is intractable, we test the hypothesis empirically by introducing a pre-training scheme that yields an improvement of 5.7% mIoU and 4.1% pixel accuracy over classification-based pre-training. While annotation is not needed for pre-training, it is needed for testing the hypothesis. We use the KITTI (outdoor) and NYU-V2 (indoor) benchmarks to that end, and provide an extensive discussion of the benefits and limitations of the proposed scheme in relation to existing unsupervised, self-supervised, and semi-supervised pre-training protocols.
Abstract（参考訳）: セマンティックセグメンテーションのためのディープニューラルネットワークのトレーニングは、労力を要するため、別のタスクのために事前トレーニングし、小さな注釈付きデータセットで微調整するのが一般的です。 state-of-the-artメソッドは、未制御バイアスを導入する事前トレーニングに画像分類を使用する。ラベルなしビデオからの深度推定が事前学習に役立てる可能性があるという仮説を検証した。セマンティックな情報がないにもかかわらず、画像全体をセマンティッククラスに分類するよりも、シーン幾何学を推定することはセマンティックセマンティックセマンティクスの課題に近いと論じる。解析的検証は難易度が高いため,分類に基づく事前学習よりも5.7% mIoU と4.1% の精度を向上する事前学習スキームを導入することにより,仮説を実証的に検証する。事前トレーニングにはアノテーションは必要ありませんが、仮説をテストするには必要です。その目的のために,kitti (outdoor) と nyu-v2 (indoor) ベンチマークを用い,既存の非教師なし,自己教師なし,半教師なしの事前学習プロトコルに関する提案手法の利点と限界について幅広い議論を行った。

関連論文リスト

Vision CNNs trained to estimate spatial latents learned similar ventral-stream-aligned representations [44.51229445138653]
霊長類の腹側視覚ストリームの機能的役割の研究は、伝統的に対象の分類に焦点を当ててきた。ここでは、別の仮説を探求する: 腹側流は空間的潜伏量の推定に最適化されるか? 数個の空間的遅延を推定するためにトレーニングされたモデルは、数百のカテゴリでトレーニングされたモデルに匹敵するニューラルアライメントスコアを達成できることがわかった。
論文参考訳（メタデータ） (2024-12-12T09:49:16Z)
Improving Semantic Correspondence with Viewpoint-Guided Spherical Maps [39.00415825387414]
そこで本研究では, 識別的特徴を3次元的理解で補う意味対応推定手法を提案する。より複雑な3Dパイプラインと比較して、我々のモデルは弱い視点情報しか必要とせず、球面表現の単純さにより、トレーニング中に情報的幾何学的先行情報をモデルに注入することができる。本研究では,SPair-71kデータセットを用いて,複数のオブジェクトカテゴリにまたがる対称なビューと繰り返し部分の区別が可能であることを実証した。
論文参考訳（メタデータ） (2023-12-20T17:35:24Z)
Inverse Dynamics Pretraining Learns Good Representations for Multitask Imitation [66.86987509942607]
このようなパラダイムを模倣学習でどのように行うべきかを評価する。本稿では,事前学習コーパスがマルチタスクのデモンストレーションから成り立つ環境について考察する。逆動力学モデリングはこの設定に適していると主張する。
論文参考訳（メタデータ） (2023-05-26T14:40:46Z)
Self-Supervised Learning via Maximum Entropy Coding [57.56570417545023]
本稿では,表現の構造を明示的に最適化する原理的目的として,最大エントロピー符号化(MEC)を提案する。 MECは、特定のプリテキストタスクに基づいて、以前のメソッドよりもより一般化可能な表現を学ぶ。 ImageNetリニアプローブだけでなく、半教師付き分類、オブジェクト検出、インスタンスセグメンテーション、オブジェクトトラッキングなど、さまざまなダウンストリームタスクに対して一貫して最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-10-20T17:58:30Z)
Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文参考訳（メタデータ） (2022-09-30T02:25:12Z)
Masked prediction tasks: a parameter identifiability view [49.533046139235466]
マスク付きトークンの予測に広く用いられている自己教師型学習手法に着目する。いくつかの予測タスクは識別可能性をもたらすが、他のタスクはそうではない。
論文参考訳（メタデータ） (2022-02-18T17:09:32Z)
Learning What Makes a Difference from Counterfactual Examples and Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文参考訳（メタデータ） (2020-04-20T02:47:49Z)
Semantically-Guided Representation Learning for Self-Supervised Monocular Depth [40.49380547487908]
本稿では,自己教師付き表現学習を指導するために,事前訓練型セマンティックセマンティック・セマンティクス・ネットワークを利用した新しいアーキテクチャを提案する。本手法は,全画素,細粒度細部,意味カテゴリーごとの自己教師型単眼深度予測のための技術の現状を改善した。
論文参考訳（メタデータ） (2020-02-27T18:40:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。