論文の概要: Multi-task Learning for Monocular Depth and Defocus Estimations with
Real Images
- arxiv url: http://arxiv.org/abs/2208.09848v1
- Date: Sun, 21 Aug 2022 08:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 14:10:47.668961
- Title: Multi-task Learning for Monocular Depth and Defocus Estimations with
Real Images
- Title(参考訳): 実画像を用いた単眼深度とデフォーカス推定のためのマルチタスク学習
- Authors: Renzhi He, Hualin Hong, Boya Fu, Fei Liu
- Abstract要約: 既存の手法の多くは、深度推定とデフォーカス推定を2つの別々のタスクとして扱い、それら間の強いつながりを無視している。
本稿では、2つのデコーダを持つエンコーダからなるマルチタスク学習ネットワークを提案し、単一の焦点画像から深度とデフォーカスマップを推定する。
我々の深度とデフォーカス推定は、他の最先端アルゴリズムよりも大幅に性能が向上する。
- 参考スコア(独自算出の注目度): 3.682618267671887
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular depth estimation and defocus estimation are two fundamental tasks
in computer vision. Most existing methods treat depth estimation and defocus
estimation as two separate tasks, ignoring the strong connection between them.
In this work, we propose a multi-task learning network consisting of an encoder
with two decoders to estimate the depth and defocus map from a single focused
image. Through the multi-task network, the depth estimation facilitates the
defocus estimation to get better results in the weak texture region and the
defocus estimation facilitates the depth estimation by the strong physical
connection between the two maps. We set up a dataset (named ALL-in-3D dataset)
which is the first all-real image dataset consisting of 100K sets of
all-in-focus images, focused images with focus depth, depth maps, and defocus
maps. It enables the network to learn features and solid physical connections
between the depth and real defocus images. Experiments demonstrate that the
network learns more solid features from the real focused images than the
synthetic focused images. Benefiting from this multi-task structure where
different tasks facilitate each other, our depth and defocus estimations
achieve significantly better performance than other state-of-art algorithms.
The code and dataset will be publicly available at
https://github.com/cubhe/MDDNet.
- Abstract(参考訳): 単眼深度推定とデフォーカス推定はコンピュータビジョンにおける2つの基本的なタスクである。
既存の手法の多くは、深度推定とデフォーカス推定を2つの別々のタスクとして扱い、それら間の強いつながりを無視している。
本研究では、2つのデコーダを持つエンコーダからなるマルチタスク学習ネットワークを提案し、単一の焦点画像から深度とデフォーカスマップを推定する。
マルチタスクネットワークを通じて、デフォーカス推定が弱テクスチャ領域におけるより良い結果を得るのに役立ち、デフォーカス推定は2つのマップ間の強い物理的接続によるデフォーカス推定を容易にする。
このデータセットは100Kのオールインフォーカス画像、フォーカス深度、深度マップ、デフォーカスマップからなる最初のオールリアル画像データセットである。
これにより、ネットワークは深度と実際のデフォーカス画像との間の特徴や物理的な接続を学習することができる。
実験により、ネットワークは合成焦点画像よりも実際の焦点画像からより堅固な特徴を学習できることが示される。
異なるタスクが互いに助け合うこのマルチタスク構造から、私たちの深さとデフォーカス推定は、他の最先端アルゴリズムよりも大幅にパフォーマンスが向上する。
コードとデータセットはhttps://github.com/cubhe/MDDNetで公開されている。
関連論文リスト
- Towards Real-World Focus Stacking with Deep Learning [97.34754533628322]
焦点ブラケットを用いた94個の高解像度原画像のバーストからなる新しいデータセットを提案する。
このデータセットは、現実世界のアプリケーションに十分な長さのバーストを処理できるフォーカススタックのための最初のディープラーニングアルゴリズムをトレーニングするために使用される。
論文 参考訳(メタデータ) (2023-11-29T17:49:33Z) - Depth Estimation and Image Restoration by Deep Learning from Defocused
Images [2.6599014990168834]
2-headed Depth Estimation and Deblurring Network (2HDED:NET)は、Defocus(DFD)ネットワークからの従来のDepthを拡張し、deepブランチと同じエンコーダを共有するdeblurringブランチを持つ。
提案手法は,室内と屋外のシーンの2つのベンチマーク(NYU-v2とMake3D)で試験に成功した。
論文 参考訳(メタデータ) (2023-02-21T15:28:42Z) - Learning Depth from Focus in the Wild [16.27391171541217]
単一焦点スタックからの畳み込みニューラルネットワークによる深度推定を提案する。
本手法では,画像アライメントにおいても,奥行きマップをエンドツーエンドで推定することができる。
提案するネットワークの一般化のために,商用カメラの特徴を現実的に再現するシミュレータを開発した。
論文 参考訳(メタデータ) (2022-07-20T05:23:29Z) - Learning to Deblur using Light Field Generated and Real Defocus Images [4.926805108788465]
デフォーカス・デブロワーリングは、デフォーカス・ボケの性質が空間的に変化するため、困難な作業である。
本稿では,光の強度を活用し,光源の欠点を克服する新しいディープデフォーカス・デブロアリング・ネットワークを提案する。
論文 参考訳(メタデータ) (2022-04-01T11:35:51Z) - Bridging Unsupervised and Supervised Depth from Focus via All-in-Focus
Supervision [10.547816678110417]
提案手法は、地上の真理深度で監督的に訓練するか、AiF画像で監督的に訓練することができる。
種々の実験において,本手法は定量的かつ定性的に,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-24T17:09:13Z) - Sparse Auxiliary Networks for Unified Monocular Depth Prediction and
Completion [56.85837052421469]
コスト効率のよいセンサで得られたデータからシーン形状を推定することは、ロボットや自動運転車にとって鍵となる。
本稿では,1枚のRGB画像から,低コストな能動深度センサによるスパース計測により,深度を推定する問題について検討する。
sparse networks (sans) は,深さ予測と完了という2つのタスクをmonodepthネットワークで実行可能にする,新しいモジュールである。
論文 参考訳(メタデータ) (2021-03-30T21:22:26Z) - Defocus Blur Detection via Depth Distillation [64.78779830554731]
初めてDBDに深度情報を導入します。
より詳しくは, 地底の真理と, 十分に訓練された深度推定ネットワークから抽出した深度から, デフォーカスのぼかしを学習する。
我々の手法は、2つの一般的なデータセット上で11の最先端の手法より優れています。
論文 参考訳(メタデータ) (2020-07-16T04:58:09Z) - Real-MFF: A Large Realistic Multi-focus Image Dataset with Ground Truth [58.226535803985804]
我々はReal-MFFと呼ばれる大規模で現実的なマルチフォーカスデータセットを導入する。
データセットは、710対のソースイメージと対応する接地真理画像を含む。
このデータセット上で10の典型的なマルチフォーカスアルゴリズムを図示のために評価する。
論文 参考訳(メタデータ) (2020-03-28T12:33:46Z) - Learning Depth With Very Sparse Supervision [57.911425589947314]
本稿では, 環境との相互作用を通じて, 知覚が世界の3次元特性と結合するという考えを考察する。
我々は、環境と対話するロボットが利用できるような、特殊なグローバルローカルネットワークアーキテクチャを訓練する。
いくつかのデータセットの実験では、画像ピクセルの1つでも基底真理が利用できる場合、提案されたネットワークは、最先端のアプローチよりも22.5%の精度でモノクロの深度推定を学習できることを示している。
論文 参考訳(メタデータ) (2020-03-02T10:44:13Z) - Single Image Depth Estimation Trained via Depth from Defocus Cues [105.67073923825842]
単一のRGB画像から深度を推定することはコンピュータビジョンの基本的な課題である。
この作業では、異なる視点ではなく、フォーカスキューからの奥行きに依存しています。
我々は,KITTIとMake3Dデータセットの教師あり手法と同等な結果を提示し,教師なし学習手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-01-14T20:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。