Fugu-MT 論文翻訳(概要): Learning light field synthesis with Multi-Plane Images: scene encoding as a recurrent segmentation task

論文の概要: Learning light field synthesis with Multi-Plane Images: scene encoding as a recurrent segmentation task

arxiv url: http://arxiv.org/abs/2002.05028v3
Date: Tue, 19 May 2020 11:25:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-01 20:13:38.518061
Title: Learning light field synthesis with Multi-Plane Images: scene encoding as a recurrent segmentation task
Title（参考訳）: 多面画像を用いた光フィールド合成の学習:再帰的セグメンテーションタスクとしてのシーンエンコーディング
Authors: Tom\'as V\"olker, Guillaume Boisson, Bertrand Chupeau
Abstract要約: 本稿では、入力ビューのスパースセットを多面画像(MPI)に変換することで、大規模なベースライン光場からのビュー合成の問題に対処する。利用可能なデータセットは少ないため、広範なトレーニングを必要としない軽量ネットワークを提案する。我々のモデルは、RGB層を推定することを学ぶのではなく、MPIアルファ層内のシーン幾何学を符号化するだけであり、それはセグメンテーションタスクに帰着する。
参考スコア（独自算出の注目度）: 30.058283056074426
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper we address the problem of view synthesis from large baseline light fields, by turning a sparse set of input views into a Multi-plane Image (MPI). Because available datasets are scarce, we propose a lightweight network that does not require extensive training. Unlike latest approaches, our model does not learn to estimate RGB layers but only encodes the scene geometry within MPI alpha layers, which comes down to a segmentation task. A Learned Gradient Descent (LGD) framework is used to cascade the same convolutional network in a recurrent fashion in order to refine the volumetric representation obtained. Thanks to its low number of parameters, our model trains successfully on a small light field video dataset and provides visually appealing results. It also exhibits convenient generalization properties regarding both the number of input views, the number of depth planes in the MPI, and the number of refinement iterations.
Abstract（参考訳）: 本稿では,入力ビューのスパースセットを多面体画像(MPI)に変換することで,大規模なベースライン光場からのビュー合成の問題に対処する。利用可能なデータセットは少ないため、広範なトレーニングを必要としない軽量ネットワークを提案する。最新のアプローチとは異なり、このモデルはrgb層を推定することを学ばず、セグメンテーションタスクにつながるmpi alpha層内のシーンジオメトリのみをエンコードする。 Learned Gradient Descent (LGD)フレームワークは、得られた体積表現を洗練させるために、同じ畳み込みネットワークを反復的にカスケードするために使用される。パラメータの少なさにより,小型のライトフィールドビデオデータセット上でのトレーニングが成功し,視覚的に魅力的な結果が得られる。また、入力ビュー数、MPI内の深さ平面数、改善イテレーション数の両方について、便利な一般化特性を示す。

関連論文リスト

Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
MAIR++: Improving Multi-view Attention Inverse Rendering with Implicit Lighting Representation [17.133440382384578]
マルチビュー画像を用いてシーンを幾何学、SVBRDF、3次元空間的に変化する照明に分解するシーンレベルの逆レンダリングフレームワークを提案する。 MAIR(Multi-view Attention Inverse Rendering)と呼ばれる新しいフレームワークが最近導入され、シーンレベルの逆レンダリングの品質が向上した。
論文参考訳（メタデータ） (2024-08-13T08:04:23Z)
MuRF: Multi-Baseline Radiance Fields [117.55811938988256]
スパースビュー合成におけるフィードフォワードアプローチであるmulti-Baseline Radiance Fields(MuRF)を提案する。 MuRFは、複数の異なるベースライン設定で最先端のパフォーマンスを達成する。また、Mip-NeRF 360データセット上でゼロショットの一般化能力を示す。
論文参考訳（メタデータ） (2023-12-07T18:59:56Z)
ClusVPR: Efficient Visual Place Recognition with Clustering-based Weighted Transformer [13.0858576267115]
ClusVPRは重複する領域における冗長な情報の特定の問題と、小さなオブジェクトの表現に対処する新しいアプローチである。 ClusVPRはClustering-based weighted Transformer Network (CWTNet)と呼ばれるユニークなパラダイムを導入したまた,パラメータ数を大幅に削減し,モデル効率を向上させる最適化VLAD層を導入する。
論文参考訳（メタデータ） (2023-10-06T09:01:15Z)
SAMPLING: Scene-adaptive Hierarchical Multiplane Images Representation for Novel View Synthesis from a Single Image [60.52991173059486]
単一画像からの新規ビュー合成のためのシーン適応型階層型多面体画像表現であるSAMPlingを紹介する。提案手法は,KITTIデータセット上の単一画像を用いて,大規模非有界屋外シーンにおいてかなりの性能向上を示す。
論文参考訳（メタデータ） (2023-09-12T15:33:09Z)
Multiscale Representation for Real-Time Anti-Aliasing Neural Rendering [84.37776381343662]
Mip-NeRFは、スケール情報をエンコードする円錐フラストラムとしてマルチスケール表現を提案する。我々は,リアルタイムなアンチエイリアスレンダリングのためのマルチスケールな明示的表現であるmip voxel grids (Mip-VoG)を提案する。私たちのアプローチは、マルチスケールのトレーニングとリアルタイムのアンチエイリアスレンダリングを同時に提供する最初の方法です。
論文参考訳（メタデータ） (2023-04-20T04:05:22Z)
DeLiRa: Self-Supervised Depth, Light, and Radiance Fields [32.350984950639656]
可変ボリュームレンダリングは、3次元再構成と新しいビュー合成のための強力なパラダイムである。標準的なボリュームレンダリングアプローチは、視点の多様性が限られている場合、縮退したジオメトリーと競合する。本研究では,多視点測光目標を体積レンダリングのための幾何正則化器として用いることを提案する。
論文参考訳（メタデータ） (2023-04-06T00:16:25Z)
Progressively-connected Light Field Network for Efficient View Synthesis [69.29043048775802]
本稿では、複雑な前方シーンのビュー合成のためのプログレッシブ・コネクテッド・ライトフィールド・ネットワーク(ProLiF)を提案する。 ProLiFは4Dライトフィールドをエンコードし、画像やパッチレベルの損失に対するトレーニングステップで大量の光線をレンダリングすることができる。
論文参考訳（メタデータ） (2022-07-10T13:47:20Z)
Modeling Image Composition for Complex Scene Generation [77.10533862854706]
本稿では,レイアウト・ツー・イメージ生成タスクにおける最先端結果を実現する手法を提案する。本稿では,RGB画像をパッチトークンに圧縮した後,オブジェクト・トゥ・オブジェクト,オブジェクト・トゥ・パッチ,パッチ・トゥ・パッチの依存関係を探索するTransformer with Focal Attention (TwFA)を提案する。
論文参考訳（メタデータ） (2022-06-02T08:34:25Z)
Single-View View Synthesis in the Wild with Learned Adaptive Multiplane Images [15.614631883233898]
既存の手法では, 単分子深度推定と層状深度表現による色塗布による有望な結果が示されている。マルチプレーン画像(MPI)表現に基づく新しい手法を提案する。合成データと実データの両方の実験により、我々のトレーニングされたモデルは驚くほどうまく機能し、最先端の結果が得られます。
論文参考訳（メタデータ） (2022-05-24T02:57:16Z)
Detail-Preserving Transformer for Light Field Image Super-Resolution [15.53525700552796]
我々は,光場超解像をシーケンス・ツー・シーケンスの再構成タスクとして扱うことにより,トランスフォーマー上に構築された新しい定式化を行った。本稿では,光場の勾配マップを利用してシーケンス学習のガイドを行うことにより,ディテール保存型変換器(DPT)を提案する。 DPTは2つのブランチで構成され、それぞれがトランスフォーマーに関連付けられ、オリジナルまたはグラデーション画像シーケンスから学習する。
論文参考訳（メタデータ） (2022-01-02T12:33:23Z)
Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文参考訳（メタデータ） (2021-03-19T03:55:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。