Fugu-MT 論文翻訳(概要): Unsupervised Learning of Depth and Depth-of-Field Effect from Natural Images with Aperture Rendering Generative Adversarial Networks

論文の概要: Unsupervised Learning of Depth and Depth-of-Field Effect from Natural Images with Aperture Rendering Generative Adversarial Networks

arxiv url: http://arxiv.org/abs/2106.13041v1
Date: Thu, 24 Jun 2021 14:15:50 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-25 15:20:57.637096
Title: Unsupervised Learning of Depth and Depth-of-Field Effect from Natural Images with Aperture Rendering Generative Adversarial Networks
Title（参考訳）: 開口レンダリング生成逆ネットワークを用いた自然画像からの奥行きと奥行きの教師なし学習
Authors: Takuhiro Kaneko
Abstract要約: 本稿では,GAN上にアパーチャレンダリングを実装したAR-GAN(Aperture rendering Generative Adversarial Network)を提案する。実験では,花,鳥,顔画像などの各種データセットにおけるAR-GANの有効性を実証し,これらを他の3次元表現学習GANに組み込むことで可搬性を示し,浅部DoFレンダリングにおけるそれらの適用性を検証する。
参考スコア（独自算出の注目度）: 15.546533383799309
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Understanding the 3D world from 2D projected natural images is a fundamental challenge in computer vision and graphics. Recently, an unsupervised learning approach has garnered considerable attention owing to its advantages in data collection. However, to mitigate training limitations, typical methods need to impose assumptions for viewpoint distribution (e.g., a dataset containing various viewpoint images) or object shape (e.g., symmetric objects). These assumptions often restrict applications; for instance, the application to non-rigid objects or images captured from similar viewpoints (e.g., flower or bird images) remains a challenge. To complement these approaches, we propose aperture rendering generative adversarial networks (AR-GANs), which equip aperture rendering on top of GANs, and adopt focus cues to learn the depth and depth-of-field (DoF) effect of unlabeled natural images. To address the ambiguities triggered by unsupervised setting (i.e., ambiguities between smooth texture and out-of-focus blurs, and between foreground and background blurs), we develop DoF mixture learning, which enables the generator to learn real image distribution while generating diverse DoF images. In addition, we devise a center focus prior to guiding the learning direction. In the experiments, we demonstrate the effectiveness of AR-GANs in various datasets, such as flower, bird, and face images, demonstrate their portability by incorporating them into other 3D representation learning GANs, and validate their applicability in shallow DoF rendering.
Abstract（参考訳）: 2次元投影自然画像から3d世界を理解することは、コンピュータビジョンとグラフィックスにおける根本的な課題である。近年,データ収集における優位性から,教師なし学習アプローチが注目されている。しかし、トレーニング制限を緩和するために、典型的な方法は視点分布(例えば、様々な視点画像を含むデータセット)や物体形状(例えば対称オブジェクト)の仮定を課す必要がある。例えば、類似の視点(例えば、花や鳥の画像)からキャプチャされた非剛性物体や画像への応用は、依然として課題である。これらの手法を補完するために,GAN上にアパーチャレンダリングを装備するAR-GAN(Aperture rendering Generative Adversarial Network)を提案し,未ラベルの自然画像の深度と深度(DoF)効果を学習するためにフォーカスキューを採用した。教師なし設定(スムーズなテクスチャとアウト・オブ・フォーカスのぼかし、前景と背景のぼかしのあいまいさ)によって引き起こされる曖昧さに対処するため,多様なDoF画像を生成しながら実際の画像分布を学習できるDoF混合学習を開発した。さらに、学習方向を導く前に、中心となる焦点を考案する。実験では,花,鳥,顔画像などの各種データセットにおけるAR-GANの有効性を実証し,これらを他の3次元表現学習GANに組み込んで移植性を示し,浅いDoFレンダリングにおける適用性を検証する。

関連論文リスト

DoF-Gaussian: Controllable Depth-of-Field for 3D Gaussian Splatting [52.52398576505268]
3D-GSのための制御可能な深度法であるDoF-Gaussianを導入する。我々は、DoF効果を制御するための幾何光学原理に基づくレンズベースイメージングモデルを開発した。私たちのフレームワークはカスタマイズ可能で、様々なインタラクティブアプリケーションをサポートしています。
論文参考訳（メタデータ） (2025-03-02T05:57:57Z)
Contrasting Deepfakes Diffusion via Contrastive Learning and Global-Local Similarities [88.398085358514]
Contrastive Deepfake Embeddings (CoDE)は、ディープフェイク検出に特化した新しい埋め込み空間である。 CoDEは、グローバルローカルな類似性をさらに強化することで、対照的な学習を通じて訓練される。
論文参考訳（メタデータ） (2024-07-29T18:00:10Z)
DepGAN: Leveraging Depth Maps for Handling Occlusions and Transparency in Image Composition [7.693732944239458]
DepGANは、デプスマップとアルファチャンネルを利用して、不正確なオクルージョンを正すジェネレーティブ・アドバイサル・ネットワークである。我々のネットワークの中心にはDepth Aware Lossと呼ばれる新しいロス関数があり、ピクセルのワイド深さ差を定量化している。我々は不透明データを利用してネットワークの学習プロセスを強化し、透明で半透明なオブジェクトを含む構成を効果的に管理する。
論文参考訳（メタデータ） (2024-07-16T16:18:40Z)
Fine-grained Image-to-LiDAR Contrastive Distillation with Visual Foundation Models [55.99654128127689]
Visual Foundation Models (VFM) は、3D表現学習を強化するために使用される。 VFMは、弱制御された画素間コントラスト蒸留のためのセマンティックラベルを生成する。我々は,空間分布とカテゴリー周波数の不均衡に対応するために,点のサンプリング確率を適応させる。
論文参考訳（メタデータ） (2024-05-23T07:48:19Z)
Learning 3D-Aware GANs from Unposed Images with Template Feature Field [33.32761749864555]
この研究は、未提示の画像から3D対応のGANを学習することを目的としている。学習テンプレート特徴場(TeFF)を用いたトレーニング画像のオンザフライポーズ推定を提案する。
論文参考訳（メタデータ） (2024-04-08T17:42:08Z)
HVDistill: Transferring Knowledge from Images to Point Clouds via Unsupervised Hybrid-View Distillation [106.09886920774002]
本稿では,HVDistillと呼ばれるハイブリッドビューに基づく知識蒸留フレームワークを提案する。提案手法は,スクラッチからトレーニングしたベースラインに対して一貫した改善を実現し,既存のスキームを大幅に上回っている。
論文参考訳（メタデータ） (2024-03-18T14:18:08Z)
GAN2X: Non-Lambertian Inverse Rendering of Image GANs [85.76426471872855]
GAN2Xは、教師なし画像のみをトレーニングに使用する、教師なし逆レンダリングの新しい手法である。 3次元形状を主眼とする従来のShape-from-GANアプローチとは異なり、GANが生成した擬似ペアデータを利用して、非ランベルト材料特性を復元する試みは初めてである。実験により, GAN2Xは2次元画像を3次元形状, アルベド, 特異な特性に正確に分解し, 教師なしの単視3次元顔再構成の最先端性能を実現することができた。
論文参考訳（メタデータ） (2022-06-18T16:58:49Z)
AR-NeRF: Unsupervised Learning of Depth and Defocus Effects from Natural Images with Aperture Rendering Neural Radiance Fields [23.92262483956057]
データ収集の利点から、完全に教師なしの3D表現学習が注目を集めている。視点とデフォーカスの手がかりを統一的に活用できる開口描画型NeRF(AR-NeRF)を提案する。深度とデフォーカス効果の教師なし学習におけるAR-NeRFの有用性を実証する。
論文参考訳（メタデータ） (2022-06-13T12:41:59Z)
De-rendering 3D Objects in the Wild [21.16153549406485]
物体の1つの像を1つの形状に分解できる弱教師付き手法を提案する。トレーニングでは、学習プロセスをブートストラップするために、トレーニング対象の粗い初期形状の推定にのみ依存する。本実験では,2次元画像を3次元表現にデレンダリングし,未知のオブジェクトカテゴリに一般化できることを示す。
論文参考訳（メタデータ） (2022-01-06T23:50:09Z)
Combining Semantic Guidance and Deep Reinforcement Learning For Generating Human Level Paintings [22.889059874754242]
脳卒中に基づく非フォトリアリスティック画像の生成は、コンピュータビジョンコミュニティにおいて重要な問題である。従来の手法は、前景オブジェクトの位置、規模、正当性にほとんど変化のないデータセットに限られていた。本研究では,1)前景と背景の筆画の区別を学習するための2段階の塗装手順を備えたセマンティック・ガイダンス・パイプラインを提案する。
論文参考訳（メタデータ） (2020-11-25T09:00:04Z)
Image GANs meet Differentiable Rendering for Inverse Graphics and Interpretable 3D Neural Rendering [101.56891506498755]
異なるレンダリングによって、ニューラルネットワークをトレーニングして"逆グラフィックス"タスクを実行する方法が舗装された。提案手法は,既存のデータセットでトレーニングした最先端の逆グラフネットワークを著しく上回ることを示す。
論文参考訳（メタデータ） (2020-10-18T22:29:07Z)
Self-Supervised Linear Motion Deblurring [112.75317069916579]
深層畳み込みニューラルネットワークは、画像の劣化の最先端技術である。本稿では,自己監督型動作遅延に対する識別可能なreblurモデルを提案する。我々の実験は、自己監督された単一画像の劣化が本当に実現可能であることを実証した。
論文参考訳（メタデータ） (2020-02-10T20:15:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。