論文の概要: Enhancing Neural Rendering Methods with Image Augmentations
- arxiv url: http://arxiv.org/abs/2306.08904v1
- Date: Thu, 15 Jun 2023 07:18:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 16:14:22.732422
- Title: Enhancing Neural Rendering Methods with Image Augmentations
- Title(参考訳): 画像拡張によるニューラルレンダリング手法の強化
- Authors: Juan C. P\'erez and Sara Rojas and Jesus Zarzar and Bernard Ghanem
- Abstract要約: 本研究では,3次元シーンの学習型ニューラルレンダリング法(NRM)における画像拡張の利用について検討した。
トレーニング中に画像拡張を導入すると、幾何学的および測光的不整合などの課題が生じる。
本実験は,NRMの学習において,光学的品質向上や表面再構成など,拡張を取り入れることの利点を実証するものである。
- 参考スコア(独自算出の注目度): 59.00067936686825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Faithfully reconstructing 3D geometry and generating novel views of scenes
are critical tasks in 3D computer vision. Despite the widespread use of image
augmentations across computer vision applications, their potential remains
underexplored when learning neural rendering methods (NRMs) for 3D scenes. This
paper presents a comprehensive analysis of the use of image augmentations in
NRMs, where we explore different augmentation strategies. We found that
introducing image augmentations during training presents challenges such as
geometric and photometric inconsistencies for learning NRMs from images.
Specifically, geometric inconsistencies arise from alterations in shapes,
positions, and orientations from the augmentations, disrupting spatial cues
necessary for accurate 3D reconstruction. On the other hand, photometric
inconsistencies arise from changes in pixel intensities introduced by the
augmentations, affecting the ability to capture the underlying 3D structures of
the scene. We alleviate these issues by focusing on color manipulations and
introducing learnable appearance embeddings that allow NRMs to explain away
photometric variations. Our experiments demonstrate the benefits of
incorporating augmentations when learning NRMs, including improved photometric
quality and surface reconstruction, as well as enhanced robustness against data
quality issues, such as reduced training data and image degradations.
- Abstract(参考訳): 3次元幾何学を忠実に再構築し、シーンの新しい視点を生成することは、3次元コンピュータビジョンにおいて重要なタスクである。
コンピュータビジョンアプリケーションで画像拡張が広く使われているが、3Dシーンのニューラルレンダリング法(NRM)を学ぶ際には、その可能性はまだ探索されていない。
本稿では,NRMにおける画像拡張の利用に関する包括的分析を行い,様々な拡張戦略について検討する。
トレーニング中に画像拡張を導入することで、画像からNRMを学習する幾何学的および測光的不整合などの課題が生じることがわかった。
特に、幾何学的不整合は、形状、位置、方向の変化から生じ、正確な3次元再構成に必要な空間的手がかりを乱す。
一方で、光測定の不整合は、拡大によって引き起こされるピクセル強度の変化から生じ、シーンの基盤となる3d構造をキャプチャする能力に影響を及ぼす。
我々は、色操作に焦点をあて、NRMが光度変化を説明できる学習可能な外観埋め込みを導入することで、これらの問題を緩和する。
実験では,測光品質の向上や表面再構成,トレーニングデータの削減や画像劣化などのデータ品質問題に対する堅牢性の向上など,nrm学習における強化効果を実証する。
関連論文リスト
- GTR: Improving Large 3D Reconstruction Models through Geometry and Texture Refinement [51.97726804507328]
マルチビュー画像から3次元メッシュを再構成する手法を提案する。
提案手法は, 変圧器を用いたトリプレーンジェネレータとニューラルレージアンスフィールド(NeRF)モデルを用いた大規模再構成モデルから着想を得たものである。
論文 参考訳(メタデータ) (2024-06-09T05:19:24Z) - 3D Facial Expressions through Analysis-by-Neural-Synthesis [30.2749903946587]
SMIRK(Spatial Modeling for Image-based Reconstruction of Kinesics)は、画像から表現力のある3次元顔を忠実に再構築する。
既存の手法では,自己指導型トレーニングの定式化における欠点と,訓練画像における表現の多様性の欠如の2つの重要な限界を識別する。
我々の質的,定量的,特に知覚的評価は、SMIRKが正確な表現再構成における新しい最先端技術を実現することを証明している。
論文 参考訳(メタデータ) (2024-04-05T14:00:07Z) - 2L3: Lifting Imperfect Generated 2D Images into Accurate 3D [16.66666619143761]
マルチビュー(MV)3次元再構成は,生成したMV画像を一貫した3次元オブジェクトに融合させる,有望なソリューションである。
しかし、生成された画像は、通常、一貫性のない照明、不整合幾何学、スパースビューに悩まされ、復元の質が低下する。
本稿では, 内在的分解誘導, 過渡的モノ先行誘導, および3つの問題に対処するための視認性向上を活用する新しい3次元再構成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-29T02:30:31Z) - AugUndo: Scaling Up Augmentations for Monocular Depth Completion and Estimation [51.143540967290114]
本研究では,教師なし深度計算と推定のために,従来不可能であった幾何拡張の幅広い範囲をアンロックする手法を提案する。
これは、出力深さの座標への幾何変換を反転、あるいはアンドウイング(undo''-ing)し、深度マップを元の参照フレームに戻すことで達成される。
論文 参考訳(メタデータ) (2023-10-15T05:15:45Z) - CVRecon: Rethinking 3D Geometric Feature Learning For Neural
Reconstruction [12.53249207602695]
本稿では,エンドツーエンドの3Dニューラル再構成フレームワークCVReconを提案する。
コストボリュームにリッチな幾何学的埋め込みを利用して、3次元の幾何学的特徴学習を容易にする。
論文 参考訳(メタデータ) (2023-04-28T05:30:19Z) - Learning Personalized High Quality Volumetric Head Avatars from
Monocular RGB Videos [47.94545609011594]
本研究では,野生で撮影されたモノクロRGBビデオから高品質な3次元頭部アバターを学習する方法を提案する。
我々のハイブリッドパイプラインは、3DMMの幾何学的先行と動的追跡とニューラルラディアンス場を組み合わせることで、きめ細かい制御とフォトリアリズムを実現する。
論文 参考訳(メタデータ) (2023-04-04T01:10:04Z) - Geometry-aware data augmentation for monocular 3D object detection [18.67567745336633]
本稿では,自動運転システムにおける必須モジュールの一つであるモノキュラー3次元物体検出について述べる。
重要な課題は、深さ回復問題は単眼データに不備があることです。
我々は,既存の手法が,異なる幾何学的シフトが発生した場合の深さをロバストに推定できないことを明らかにするために,詳細な解析を行う。
上記の操作を,対応する4つの3D対応データ拡張手法に変換する。
論文 参考訳(メタデータ) (2021-04-12T23:12:48Z) - PCLs: Geometry-aware Neural Reconstruction of 3D Pose with Perspective
Crop Layers [111.55817466296402]
我々は、カメラ幾何学に基づく関心領域の視点作物であるパースペクティブ・クロップ・レイヤ(PCL)を紹介する。
PCLは、エンドツーエンドのトレーニングと基礎となるニューラルネットワークのパラメータ数を残しながら、位置依存的な視点効果を決定論的に除去する。
PCLは、既存の3D再構成ネットワークを幾何学的に認識することで、容易に精度を向上させる手段を提供する。
論文 参考訳(メタデータ) (2020-11-27T08:48:43Z) - Pix2Surf: Learning Parametric 3D Surface Models of Objects from Images [64.53227129573293]
1つ以上の視点から見れば、新しいオブジェクトの3次元パラメトリック表面表現を学習する際の課題について検討する。
ビュー間で一貫した高品質なパラメトリックな3次元表面を生成できるニューラルネットワークを設計する。
提案手法は,共通対象カテゴリからの形状の公開データセットに基づいて,教師と訓練を行う。
論文 参考訳(メタデータ) (2020-08-18T06:33:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。