論文の概要: A Lightweight Neural Network for Monocular View Generation with
Occlusion Handling
- arxiv url: http://arxiv.org/abs/2007.12577v1
- Date: Fri, 24 Jul 2020 15:29:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 06:58:37.083893
- Title: A Lightweight Neural Network for Monocular View Generation with
Occlusion Handling
- Title(参考訳): 閉塞ハンドリングによる単眼ビュー生成のための軽量ニューラルネットワーク
- Authors: Simon Evain and Christine Guillemot
- Abstract要約: 1枚の画像からビュー合成を行うステレオデータペアに基づいて訓練された,非常に軽量なニューラルネットワークアーキテクチャを提案する。
この作業は、挑戦的なKITTIデータセットにおいて、視覚的および計量的に最先端のアプローチよりも優れています。
- 参考スコア(独自算出の注目度): 46.74874316127603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this article, we present a very lightweight neural network architecture,
trained on stereo data pairs, which performs view synthesis from one single
image. With the growing success of multi-view formats, this problem is indeed
increasingly relevant. The network returns a prediction built from disparity
estimation, which fills in wrongly predicted regions using a occlusion handling
technique. To do so, during training, the network learns to estimate the
left-right consistency structural constraint on the pair of stereo input
images, to be able to replicate it at test time from one single image. The
method is built upon the idea of blending two predictions: a prediction based
on disparity estimation, and a prediction based on direct minimization in
occluded regions. The network is also able to identify these occluded areas at
training and at test time by checking the pixelwise left-right consistency of
the produced disparity maps. At test time, the approach can thus generate a
left-side and a right-side view from one input image, as well as a depth map
and a pixelwise confidence measure in the prediction. The work outperforms
visually and metric-wise state-of-the-art approaches on the challenging KITTI
dataset, all while reducing by a very significant order of magnitude (5 or 10
times) the required number of parameters (6.5 M).
- Abstract(参考訳): 本稿では、1つの画像からビュー合成を行うステレオデータペアに基づいて訓練された、非常に軽量なニューラルネットワークアーキテクチャを提案する。
マルチビューフォーマットの成功に伴い、この問題はますます重要になっている。
ネットワークは、オクルージョンハンドリング技術を用いて誤った予測領域を満たす不一致推定から構築された予測を返す。
トレーニング中、ネットワークはステレオ入力画像のペアに対する左右の一貫性構造制約を推定し、1つの画像からテスト時にそれを再現できるようにする。
本手法は,差分推定に基づく予測と,隠蔽領域における直接最小化に基づく予測という,2つの予測をブレンドするアイデアに基づいて構築される。
ネットワークはまた、生成した不一致マップのピクセル毎の左-右一貫性をチェックすることで、トレーニングやテスト時にこれらのオクルードされた領域を識別することができる。
テスト時に、1つの入力画像から左サイドと右サイドのビューを生成することができ、予測における深度マップと画素単位の信頼度を測定することができる。
この研究は、要求されるパラメータ数(6.5M)の非常に大きな桁(5倍から10倍)を減らしながら、挑戦的なKITTIデータセットに対して視覚的および計量的に最先端のアプローチより優れている。
関連論文リスト
- Left-right Discrepancy for Adversarial Attack on Stereo Networks [8.420135490466851]
本稿では,左画像特徴と右画像特徴との差を最大化するために,摂動雑音を発生させる新しい対向攻撃手法を提案する。
実験により,ステレオニューラルネットワークにおいて予測誤差を増大させる手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-14T02:30:38Z) - Uncertainty Quantification via Neural Posterior Principal Components [26.26693707762823]
不確実性定量化は、画像復元モデルの安全クリティカルドメインへの展開に不可欠である。
本稿では,入力画像の後方分布のPCをニューラルネットワークの単一前方通過で予測する手法を提案する。
提案手法は, インスタンス適応型不確実性方向を確実に伝達し, 後部サンプリングに匹敵する不確実性定量化を実現する。
論文 参考訳(メタデータ) (2023-09-27T09:51:29Z) - APRF: Anti-Aliasing Projection Representation Field for Inverse Problem
in Imaging [74.9262846410559]
Sparse-view Computed Tomography (SVCT) は画像の逆問題である。
近年の研究では、インプリシット・ニューラル・リ表現(INR)を用いて、シングラムとCT画像の座標に基づくマッピングを構築している。
自己教師型SVCT再構成法の提案 -抗エイリアス射影表現場(APRF)-
APRFは空間的制約によって隣接する投影ビュー間の連続的な表現を構築することができる。
論文 参考訳(メタデータ) (2023-07-11T14:04:12Z) - Unsupervised Light Field Depth Estimation via Multi-view Feature
Matching with Occlusion Prediction [15.421219881815956]
監督訓練に十分な深度ラベルを得ることは費用がかかる。
本稿では,LF画像から深度を推定するための教師なしフレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-20T06:11:17Z) - Decoupled Mixup for Generalized Visual Recognition [71.13734761715472]
視覚認識のためのCNNモデルを学習するための新しい「デカップリング・ミクスアップ」手法を提案する。
本手法は,各画像を識別領域と雑音発生領域に分離し,これらの領域を均一に組み合わせてCNNモデルを訓練する。
実験結果から,未知のコンテキストからなるデータに対する本手法の高一般化性能を示す。
論文 参考訳(メタデータ) (2022-10-26T15:21:39Z) - A Novel Hand Gesture Detection and Recognition system based on
ensemble-based Convolutional Neural Network [3.5665681694253903]
コンピュータビジョンとパターン認識コミュニティでは,手の部分検出が課題となっている。
畳み込みニューラルネットワーク(CNN)アーキテクチャのようなディープラーニングアルゴリズムは、分類タスクにおいて非常に一般的な選択肢となっている。
本稿では,CNNに基づくアプローチのアンサンブルを用いて,予測時の高分散や過度な問題,予測誤差などの問題を克服する。
論文 参考訳(メタデータ) (2022-02-25T06:46:58Z) - Deep Learning based Novel View Synthesis [18.363945964373553]
本稿では,与えられた画像の集合からシーンの新たなビューを予測することを学ぶディープ畳み込みニューラルネットワーク(CNN)を提案する。
従来の深層学習に基づくアプローチと比較して、新しいビューを予測するために一定数の入力画像しか処理できないのに対し、提案手法は異なる入力画像で機能する。
論文 参考訳(メタデータ) (2021-07-14T16:15:36Z) - CAMERAS: Enhanced Resolution And Sanity preserving Class Activation
Mapping for image saliency [61.40511574314069]
バックプロパゲーション画像のサリエンシは、入力中の個々のピクセルのモデル中心の重要性を推定することにより、モデル予測を説明することを目的としている。
CAMERASは、外部の事前処理を必要とせずに、高忠実度バックプロパゲーション・サリエンシ・マップを計算できる手法である。
論文 参考訳(メタデータ) (2021-06-20T08:20:56Z) - Compressive sensing with un-trained neural networks: Gradient descent
finds the smoothest approximation [60.80172153614544]
訓練されていない畳み込みニューラルネットワークは、画像の回復と復元に非常に成功したツールとして登場した。
トレーニングされていない畳み込みニューラルネットワークは、ほぼ最小限のランダムな測定値から、十分に構造化された信号や画像を概ね再構成可能であることを示す。
論文 参考訳(メタデータ) (2020-05-07T15:57:25Z) - Disp R-CNN: Stereo 3D Object Detection via Shape Prior Guided Instance
Disparity Estimation [51.17232267143098]
ステレオ画像から3次元物体を検出するための新しいシステムDisp R-CNNを提案する。
我々は、LiDAR点雲を必要とせずに、統計的形状モデルを用いて、密度の異なる擬似地下構造を生成する。
KITTIデータセットの実験によると、LiDARの基盤構造がトレーニング時に利用できない場合でも、Disp R-CNNは競争性能を達成し、平均精度で従来の最先端手法を20%上回っている。
論文 参考訳(メタデータ) (2020-04-07T17:48:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。