論文の概要: Global Latent Neural Rendering
- arxiv url: http://arxiv.org/abs/2312.08338v2
- Date: Fri, 8 Mar 2024 13:15:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 22:55:27.791726
- Title: Global Latent Neural Rendering
- Title(参考訳): グローバル潜在型ニューラルレンダリング
- Authors: Thomas Tanay and Matteo Maggioni
- Abstract要約: 一般化可能な新しいビュー手法の最近のトレンドは、単一のカメラ線に作用するレンダリング演算子を学習することである。
ここでは,全カメラ光線に作用するグローバルレンダリング演算子を共同で学習することを提案する。
我々は,低解像度の潜時空間でグローバルにレンダリング操作を行う効率的な畳み込みアーキテクチャである畳み込みグローバル潜時レンダラー(ConvGLR)を紹介した。
- 参考スコア(独自算出の注目度): 4.826483125482717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A recent trend among generalizable novel view synthesis methods is to learn a
rendering operator acting over single camera rays. This approach is promising
because it removes the need for explicit volumetric rendering, but it
effectively treats target images as collections of independent pixels. Here, we
propose to learn a global rendering operator acting over all camera rays
jointly. We show that the right representation to enable such rendering is a
5-dimensional plane sweep volume consisting of the projection of the input
images on a set of planes facing the target camera. Based on this
understanding, we introduce our Convolutional Global Latent Renderer (ConvGLR),
an efficient convolutional architecture that performs the rendering operation
globally in a low-resolution latent space. Experiments on various datasets
under sparse and generalizable setups show that our approach consistently
outperforms existing methods by significant margins.
- Abstract(参考訳): 一般化可能な新しいビュー合成手法の最近のトレンドは、単一のカメラ線に作用するレンダリング演算子を学ぶことである。
このアプローチは、明示的なボリュームレンダリングの必要性をなくすため、有望であるが、ターゲットイメージを独立したピクセルのコレクションとして効果的に扱う。
ここでは,全カメラ光線に作用するグローバルレンダリング演算子を共同で学習することを提案する。
このようなレンダリングを可能にするための正しい表現は、対象カメラに対向する一連の平面上の入力画像の投影からなる5次元平面スイープボリュームであることを示す。
この理解に基づいて,低解像度のラテント空間でグローバルにレンダリング操作を行う効率的な畳み込みアーキテクチャであるConvGLR(Convolutional Global Latent Renderer)を紹介した。
スパースおよび一般化可能な設定下での各種データセットの実験は、我々のアプローチが既存の手法を著しく上回っていることを示している。
関連論文リスト
- MAIR++: Improving Multi-view Attention Inverse Rendering with Implicit Lighting Representation [17.133440382384578]
マルチビュー画像を用いてシーンを幾何学、SVBRDF、3次元空間的に変化する照明に分解するシーンレベルの逆レンダリングフレームワークを提案する。
MAIR(Multi-view Attention Inverse Rendering)と呼ばれる新しいフレームワークが最近導入され、シーンレベルの逆レンダリングの品質が向上した。
論文 参考訳(メタデータ) (2024-08-13T08:04:23Z) - MuRF: Multi-Baseline Radiance Fields [117.55811938988256]
スパースビュー合成におけるフィードフォワードアプローチであるmulti-Baseline Radiance Fields(MuRF)を提案する。
MuRFは、複数の異なるベースライン設定で最先端のパフォーマンスを達成する。
また、Mip-NeRF 360データセット上でゼロショットの一般化能力を示す。
論文 参考訳(メタデータ) (2023-12-07T18:59:56Z) - Gaussian-SLAM: Photo-realistic Dense SLAM with Gaussian Splatting [24.160436463991495]
本稿では3次元ガウスアンをシーン表現として用いたSLAM法を提案する。
本手法は,実世界のシングルカメラRGBDビデオから,インタラクティブなリアルタイム再構成と写真リアルレンダリングを実現する。
論文 参考訳(メタデータ) (2023-12-06T10:47:53Z) - Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。
本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - Multiscale Representation for Real-Time Anti-Aliasing Neural Rendering [84.37776381343662]
Mip-NeRFは、スケール情報をエンコードする円錐フラストラムとしてマルチスケール表現を提案する。
我々は,リアルタイムなアンチエイリアスレンダリングのためのマルチスケールな明示的表現であるmip voxel grids (Mip-VoG)を提案する。
私たちのアプローチは、マルチスケールのトレーニングとリアルタイムのアンチエイリアスレンダリングを同時に提供する最初の方法です。
論文 参考訳(メタデータ) (2023-04-20T04:05:22Z) - Weakly-supervised Single-view Image Relighting [17.49214457620938]
本稿では,ランベルトおよび低周波スペクトルの単一像をリライトする学習に基づくアプローチを提案する。
本手法では,写真からのオブジェクトを新しいシーンに挿入し,新しい環境照明下でリライトすることができる。
論文 参考訳(メタデータ) (2023-03-24T08:20:16Z) - GLPanoDepth: Global-to-Local Panoramic Depth Estimation [18.06592473599777]
単眼全方位画像からシーンの深度を推定する学習手法を提案する。
球面信号に対するグローバルなコヒーレントな予測が可能であることを示す。
このグローバル・ローカル戦略により、パノラマにおける有用なグローバル・ローカル機能を完全に活用し、パノラマ深度推定における最先端の性能を達成することができる。
論文 参考訳(メタデータ) (2022-02-06T15:11:58Z) - ARVo: Learning All-Range Volumetric Correspondence for Video Deblurring [92.40655035360729]
ビデオデブラリングモデルは連続フレームを利用して、カメラの揺動や物体の動きからぼやけを取り除く。
特徴空間におけるボケフレーム間の空間的対応を学習する新しい暗黙的手法を提案する。
提案手法は,新たに収集したビデオデブレーション用ハイフレームレート(1000fps)データセットとともに,広く採用されているDVDデータセット上で評価される。
論文 参考訳(メタデータ) (2021-03-07T04:33:13Z) - IBRNet: Learning Multi-View Image-Based Rendering [67.15887251196894]
本稿では,近接ビューの疎集合を補間することにより,複雑なシーンの新しいビューを合成する手法を提案する。
レンダリング時にソースビューを描画することで、画像ベースのレンダリングに関する古典的な作業に戻ります。
論文 参考訳(メタデータ) (2021-02-25T18:56:21Z) - NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis [78.5281048849446]
本稿では,複雑なシーンの新たなビューを合成する手法を提案する。
提案アルゴリズムは,完全接続型(非畳み込み型)深層ネットワークを用いたシーンを表現する。
ボリュームレンダリングは自然に微分可能であるため、表現を最適化するのに必要な唯一の入力は、既知のカメラポーズを持つ画像の集合である。
論文 参考訳(メタデータ) (2020-03-19T17:57:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。