論文の概要: Learning light field synthesis with Multi-Plane Images: scene encoding
as a recurrent segmentation task
- arxiv url: http://arxiv.org/abs/2002.05028v3
- Date: Tue, 19 May 2020 11:25:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 20:13:38.518061
- Title: Learning light field synthesis with Multi-Plane Images: scene encoding
as a recurrent segmentation task
- Title(参考訳): 多面画像を用いた光フィールド合成の学習:再帰的セグメンテーションタスクとしてのシーンエンコーディング
- Authors: Tom\'as V\"olker, Guillaume Boisson, Bertrand Chupeau
- Abstract要約: 本稿では、入力ビューのスパースセットを多面画像(MPI)に変換することで、大規模なベースライン光場からのビュー合成の問題に対処する。
利用可能なデータセットは少ないため、広範なトレーニングを必要としない軽量ネットワークを提案する。
我々のモデルは、RGB層を推定することを学ぶのではなく、MPIアルファ層内のシーン幾何学を符号化するだけであり、それはセグメンテーションタスクに帰着する。
- 参考スコア(独自算出の注目度): 30.058283056074426
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we address the problem of view synthesis from large baseline
light fields, by turning a sparse set of input views into a Multi-plane Image
(MPI). Because available datasets are scarce, we propose a lightweight network
that does not require extensive training. Unlike latest approaches, our model
does not learn to estimate RGB layers but only encodes the scene geometry
within MPI alpha layers, which comes down to a segmentation task. A Learned
Gradient Descent (LGD) framework is used to cascade the same convolutional
network in a recurrent fashion in order to refine the volumetric representation
obtained. Thanks to its low number of parameters, our model trains successfully
on a small light field video dataset and provides visually appealing results.
It also exhibits convenient generalization properties regarding both the number
of input views, the number of depth planes in the MPI, and the number of
refinement iterations.
- Abstract(参考訳): 本稿では,入力ビューのスパースセットを多面体画像(MPI)に変換することで,大規模なベースライン光場からのビュー合成の問題に対処する。
利用可能なデータセットは少ないため、広範なトレーニングを必要としない軽量ネットワークを提案する。
最新のアプローチとは異なり、このモデルはrgb層を推定することを学ばず、セグメンテーションタスクにつながるmpi alpha層内のシーンジオメトリのみをエンコードする。
Learned Gradient Descent (LGD)フレームワークは、得られた体積表現を洗練させるために、同じ畳み込みネットワークを反復的にカスケードするために使用される。
パラメータの少なさにより,小型のライトフィールドビデオデータセット上でのトレーニングが成功し,視覚的に魅力的な結果が得られる。
また、入力ビュー数、MPI内の深さ平面数、改善イテレーション数の両方について、便利な一般化特性を示す。
関連論文リスト
- MAIR++: Improving Multi-view Attention Inverse Rendering with Implicit Lighting Representation [17.133440382384578]
マルチビュー画像を用いてシーンを幾何学、SVBRDF、3次元空間的に変化する照明に分解するシーンレベルの逆レンダリングフレームワークを提案する。
MAIR(Multi-view Attention Inverse Rendering)と呼ばれる新しいフレームワークが最近導入され、シーンレベルの逆レンダリングの品質が向上した。
論文 参考訳(メタデータ) (2024-08-13T08:04:23Z) - MuRF: Multi-Baseline Radiance Fields [117.55811938988256]
スパースビュー合成におけるフィードフォワードアプローチであるmulti-Baseline Radiance Fields(MuRF)を提案する。
MuRFは、複数の異なるベースライン設定で最先端のパフォーマンスを達成する。
また、Mip-NeRF 360データセット上でゼロショットの一般化能力を示す。
論文 参考訳(メタデータ) (2023-12-07T18:59:56Z) - ClusVPR: Efficient Visual Place Recognition with Clustering-based
Weighted Transformer [13.0858576267115]
ClusVPRは重複する領域における冗長な情報の特定の問題と、小さなオブジェクトの表現に対処する新しいアプローチである。
ClusVPRはClustering-based weighted Transformer Network (CWTNet)と呼ばれるユニークなパラダイムを導入した
また,パラメータ数を大幅に削減し,モデル効率を向上させる最適化VLAD層を導入する。
論文 参考訳(メタデータ) (2023-10-06T09:01:15Z) - SAMPLING: Scene-adaptive Hierarchical Multiplane Images Representation
for Novel View Synthesis from a Single Image [60.52991173059486]
単一画像からの新規ビュー合成のためのシーン適応型階層型多面体画像表現であるSAMPlingを紹介する。
提案手法は,KITTIデータセット上の単一画像を用いて,大規模非有界屋外シーンにおいてかなりの性能向上を示す。
論文 参考訳(メタデータ) (2023-09-12T15:33:09Z) - Multiscale Representation for Real-Time Anti-Aliasing Neural Rendering [84.37776381343662]
Mip-NeRFは、スケール情報をエンコードする円錐フラストラムとしてマルチスケール表現を提案する。
我々は,リアルタイムなアンチエイリアスレンダリングのためのマルチスケールな明示的表現であるmip voxel grids (Mip-VoG)を提案する。
私たちのアプローチは、マルチスケールのトレーニングとリアルタイムのアンチエイリアスレンダリングを同時に提供する最初の方法です。
論文 参考訳(メタデータ) (2023-04-20T04:05:22Z) - DeLiRa: Self-Supervised Depth, Light, and Radiance Fields [32.350984950639656]
可変ボリュームレンダリングは、3次元再構成と新しいビュー合成のための強力なパラダイムである。
標準的なボリュームレンダリングアプローチは、視点の多様性が限られている場合、縮退したジオメトリーと競合する。
本研究では,多視点測光目標を体積レンダリングのための幾何正則化器として用いることを提案する。
論文 参考訳(メタデータ) (2023-04-06T00:16:25Z) - Progressively-connected Light Field Network for Efficient View Synthesis [69.29043048775802]
本稿では、複雑な前方シーンのビュー合成のためのプログレッシブ・コネクテッド・ライトフィールド・ネットワーク(ProLiF)を提案する。
ProLiFは4Dライトフィールドをエンコードし、画像やパッチレベルの損失に対するトレーニングステップで大量の光線をレンダリングすることができる。
論文 参考訳(メタデータ) (2022-07-10T13:47:20Z) - Modeling Image Composition for Complex Scene Generation [77.10533862854706]
本稿では,レイアウト・ツー・イメージ生成タスクにおける最先端結果を実現する手法を提案する。
本稿では,RGB画像をパッチトークンに圧縮した後,オブジェクト・トゥ・オブジェクト,オブジェクト・トゥ・パッチ,パッチ・トゥ・パッチの依存関係を探索するTransformer with Focal Attention (TwFA)を提案する。
論文 参考訳(メタデータ) (2022-06-02T08:34:25Z) - Single-View View Synthesis in the Wild with Learned Adaptive Multiplane
Images [15.614631883233898]
既存の手法では, 単分子深度推定と層状深度表現による色塗布による有望な結果が示されている。
マルチプレーン画像(MPI)表現に基づく新しい手法を提案する。
合成データと実データの両方の実験により、我々のトレーニングされたモデルは驚くほどうまく機能し、最先端の結果が得られます。
論文 参考訳(メタデータ) (2022-05-24T02:57:16Z) - Detail-Preserving Transformer for Light Field Image Super-Resolution [15.53525700552796]
我々は,光場超解像をシーケンス・ツー・シーケンスの再構成タスクとして扱うことにより,トランスフォーマー上に構築された新しい定式化を行った。
本稿では,光場の勾配マップを利用してシーケンス学習のガイドを行うことにより,ディテール保存型変換器(DPT)を提案する。
DPTは2つのブランチで構成され、それぞれがトランスフォーマーに関連付けられ、オリジナルまたはグラデーション画像シーケンスから学習する。
論文 参考訳(メタデータ) (2022-01-02T12:33:23Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。