論文の概要: Auto-Rectify Network for Unsupervised Indoor Depth Estimation
- arxiv url: http://arxiv.org/abs/2006.02708v2
- Date: Tue, 14 Dec 2021 06:17:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 10:10:08.593211
- Title: Auto-Rectify Network for Unsupervised Indoor Depth Estimation
- Title(参考訳): 教師なし屋内深度推定のための自動修正ネットワーク
- Authors: Jia-Wang Bian, Huangying Zhan, Naiyan Wang, Tat-Jun Chin, Chunhua
Shen, Ian Reid
- Abstract要約: ハンドヘルド環境に現れる複雑な自我運動が,学習深度にとって重要な障害であることが確認された。
本稿では,相対回転を除去してトレーニング画像の修正を効果的に行うデータ前処理手法を提案する。
その結果、従来の教師なしSOTA法よりも、難易度の高いNYUv2データセットよりも優れていた。
- 参考スコア(独自算出の注目度): 119.82412041164372
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Single-View depth estimation using the CNNs trained from unlabelled videos
has shown significant promise. However, excellent results have mostly been
obtained in street-scene driving scenarios, and such methods often fail in
other settings, particularly indoor videos taken by handheld devices. In this
work, we establish that the complex ego-motions exhibited in handheld settings
are a critical obstacle for learning depth. Our fundamental analysis suggests
that the rotation behaves as noise during training, as opposed to the
translation (baseline) which provides supervision signals. To address the
challenge, we propose a data pre-processing method that rectifies training
images by removing their relative rotations for effective learning. The
significantly improved performance validates our motivation. Towards end-to-end
learning without requiring pre-processing, we propose an Auto-Rectify Network
with novel loss functions, which can automatically learn to rectify images
during training. Consequently, our results outperform the previous unsupervised
SOTA method by a large margin on the challenging NYUv2 dataset. We also
demonstrate the generalization of our trained model in ScanNet and Make3D, and
the universality of our proposed learning method on 7-Scenes and KITTI
datasets.
- Abstract(参考訳): ビデオからトレーニングされたCNNを用いたシングルビュー深度推定は、大きな可能性を秘めている。
しかし、ストリートシーンの運転シナリオでは優れた結果が得られており、特にハンドヘルドデバイスで撮影した屋内ビデオなど他の環境では失敗することが多い。
本研究では,ハンドヘルド環境における複雑なエゴ運動が,学習深度にとって重要な障害であることを示す。
基礎的な分析から, 学習中に回転がノイズとして振る舞うことが, 監督信号を提供する翻訳(ベースライン)とは対照的に示唆された。
この課題に対処するために,実効学習のための相対回転を取り除き,トレーニング画像の修正を行うデータ前処理手法を提案する。
パフォーマンスが大幅に向上すれば、モチベーションが向上します。
事前処理を必要とせずにエンドツーエンドの学習を実現するために,新たな損失関数を持つAuto-Rectify Networkを提案する。
その結果,提案手法は難易度の高い nyuv2 データセットにおいて,従来の教師なし sota 法を大きく上回った。
また,ScanNetとMake3Dにおける学習モデルの一般化と,提案した7シーンとKITTIデータセットの学習手法の普遍性を実証した。
関連論文リスト
- CovarNav: Machine Unlearning via Model Inversion and Covariance
Navigation [11.222501077070765]
機械学習は、訓練されたモデルに対する特定のトレーニングデータポイントの影響を選択的に除去する重要なテクニックとして登場した。
我々は,このことを忘れないように,CovarNavという3段階のプロセスを導入する。
CIFAR-10とVggface2データセット上でCovarNavを厳格に評価する。
論文 参考訳(メタデータ) (2023-11-21T21:19:59Z) - A Study of Forward-Forward Algorithm for Self-Supervised Learning [65.268245109828]
本研究では,自己指導型表現学習におけるフォワードとバックプロパゲーションのパフォーマンスについて検討する。
我々の主な発見は、フォワードフォワードアルゴリズムが(自己教師付き)トレーニング中にバックプロパゲーションに相容れないように機能するのに対し、転送性能は研究されたすべての設定において著しく遅れていることである。
論文 参考訳(メタデータ) (2023-09-21T10:14:53Z) - Towards Better Data Exploitation in Self-Supervised Monocular Depth
Estimation [14.262669370264994]
本稿では、データセットのトレーニングの可能性を完全に活用するために、Resizing-CroppingとSplitting-Permutingという2つのデータ拡張手法を用いる。
具体的には、原画像と生成した2つの拡張イメージを同時にトレーニングパイプラインに供給し、自己蒸留を行う。
実験により,KITTIベンチマークを用いて,地中真理と地中真理の両面から,最先端の性能を実証した。
論文 参考訳(メタデータ) (2023-09-11T06:18:05Z) - PRSNet: A Masked Self-Supervised Learning Pedestrian Re-Identification
Method [2.0411082897313984]
本論文は, 強靭性を有する事前学習モデルを得るために, マスク再構築の前タスクを設計する。
センタロイドに基づいて三重項損失を改善することにより、ネットワークのトレーニング最適化を行う。
この手法は、既存の自己教師型学習歩行者再識別法よりも、Marker1501およびCUHK03データ上で約5%高いmAPを達成する。
論文 参考訳(メタデータ) (2023-03-11T07:20:32Z) - PIVOT: Prompting for Video Continual Learning [50.80141083993668]
PIVOTは、画像領域から事前学習したモデルにおける広範な知識を活用する新しい手法である。
実験の結果,PIVOTは20タスクのアクティビティネット設定において,最先端の手法を27%向上することがわかった。
論文 参考訳(メタデータ) (2022-12-09T13:22:27Z) - An Empirical Study of Remote Sensing Pretraining [117.90699699469639]
本研究では,空中画像におけるリモートセンシング事前訓練(RSP)の実証的研究を行った。
RSPは、シーン認識タスクで特有のパフォーマンスを提供するのに役立つ。
RSPは、従来のイメージネットがRS画像に事前学習する際のデータ格差を緩和するが、それでもタスクの相違に悩まされる可能性がある。
論文 参考訳(メタデータ) (2022-04-06T13:38:11Z) - Recursive Least-Squares Estimator-Aided Online Learning for Visual
Tracking [58.14267480293575]
オフライン学習を必要とせず、簡単な効果的なオンライン学習手法を提案する。
これは、モデルが以前見たオブジェクトに関する知識を記憶するための、内蔵されたメモリ保持メカニズムを可能にする。
我々は、RT-MDNetにおける多層パーセプトロンと、DiMPにおける畳み込みニューラルネットワークの追跡のためのオンライン学習ファミリーにおける2つのネットワークに基づくアプローチを評価する。
論文 参考訳(メタデータ) (2021-12-28T06:51:18Z) - On the Impact of Interpretability Methods in Active Image Augmentation
Method [2.740398518066079]
ADAに対する解釈可能性手法の影響に関する実験的解析を提案する。
Vanilla Backpropagation, Guided Backpropagation, GradCam, Guided GradCam, InputXGradientの5つの解釈可能性手法を使用している。
実験の結果,すべての手法が訓練終了時に同様の性能を発揮することがわかったが,ADAとGradCamを組み合わせると,U-Netモデルは驚くほどの高速収束を示した。
論文 参考訳(メタデータ) (2021-02-24T15:40:54Z) - Curriculum By Smoothing [52.08553521577014]
畳み込みニューラルネットワーク(CNN)は、画像分類、検出、セグメンテーションなどのコンピュータビジョンタスクにおいて顕著な性能を示している。
アンチエイリアスフィルタやローパスフィルタを用いてCNNの機能埋め込みを円滑化するエレガントなカリキュラムベースのスキームを提案する。
トレーニング中に特徴マップ内の情報量が増加するにつれて、ネットワークはデータのより優れた表現を徐々に学習することができる。
論文 参考訳(メタデータ) (2020-03-03T07:27:44Z) - Self-supervised Fine-tuning for Correcting Super-Resolution
Convolutional Neural Networks [17.922507191213494]
完全自己教師型微調整アプローチにより、SR結果のトレーニングや修正を回避できることが示される。
我々は,複数の画像とビデオのSR CNNに微調整アルゴリズムを適用し,準最適SR解に対して精度良く修正可能であることを示す。
論文 参考訳(メタデータ) (2019-12-30T11:02:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。