論文の概要: Fillerbuster: Multi-View Scene Completion for Casual Captures
- arxiv url: http://arxiv.org/abs/2502.05175v1
- Date: Fri, 07 Feb 2025 18:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:55:44.649272
- Title: Fillerbuster: Multi-View Scene Completion for Casual Captures
- Title(参考訳): Fillerbuster:カジュアルキャプチャのためのマルチビューシーンコンプリート
- Authors: Ethan Weber, Norman Müller, Yash Kant, Vasu Agrawal, Michael Zollhöfer, Angjoo Kanazawa, Christian Richardt,
- Abstract要約: 本稿では,新しい大規模多視点潜伏拡散変換器を用いて3次元シーンの未知領域を完結するFillerbusterを提案する。
我々の解決策は、未知のターゲットビューを生成し、必要に応じて画像のポーズを復元しながら、入力フレームの広いコンテキストを消費できる生成モデルを訓練することである。
- 参考スコア(独自算出の注目度): 48.12462469832712
- License:
- Abstract: We present Fillerbuster, a method that completes unknown regions of a 3D scene by utilizing a novel large-scale multi-view latent diffusion transformer. Casual captures are often sparse and miss surrounding content behind objects or above the scene. Existing methods are not suitable for handling this challenge as they focus on making the known pixels look good with sparse-view priors, or on creating the missing sides of objects from just one or two photos. In reality, we often have hundreds of input frames and want to complete areas that are missing and unobserved from the input frames. Additionally, the images often do not have known camera parameters. Our solution is to train a generative model that can consume a large context of input frames while generating unknown target views and recovering image poses when desired. We show results where we complete partial captures on two existing datasets. We also present an uncalibrated scene completion task where our unified model predicts both poses and creates new content. Our model is the first to predict many images and poses together for scene completion.
- Abstract(参考訳): 本稿では,新しい大規模多視点潜伏拡散変換器を用いて3次元シーンの未知領域を完結するFillerbusterを提案する。
カジュアルキャプチャは、しばしばスパースで、オブジェクトの後ろやシーンの上の周囲のコンテンツを見逃す。
既存の方法では、既知のピクセルがスパースビューの先行画像で良く見えるようにすることや、1つか2枚の写真からオブジェクトの欠落した側面を作成することに重点を置いているため、この課題に対処するには適していない。
実際には、数百の入力フレームがあり、入力フレームから欠落し、保存されていない領域を完了したいと望んでいます。
さらに、画像には既知のカメラパラメータがないことが多い。
我々の解決策は、未知のターゲットビューを生成し、必要に応じて画像のポーズを復元しながら、入力フレームの広いコンテキストを消費できる生成モデルを訓練することである。
既存の2つのデータセットで部分的なキャプチャを完了した結果を示す。
我々はまた、統一されたモデルがポーズを予測し、新しいコンテンツを生成する、未調整のシーン補完タスクも提示する。
私たちのモデルは、多くの画像とポーズをまとめてシーンの完成を予測した最初のモデルです。
関連論文リスト
- Geometry-Aware Diffusion Models for Multiview Scene Inpainting [24.963896970130065]
我々は,異なる視点から捉えた入力画像の一部がマスクアウトされる3Dシーンのインペイントに焦点を当てた。
最近の研究は、生成モデルと3次元放射場を組み合わせることで、視点を越えて情報を融合することでこの問題に対処している。
本稿では,参照画像から幾何的および外見的手がかりに基づいて一貫したイメージを描ける幾何認識条件生成モデルを提案する。
論文 参考訳(メタデータ) (2025-02-18T23:30:10Z) - Generic Objects as Pose Probes for Few-shot View Synthesis [14.768563613747633]
NeRFや3D Gaussianなどの放射場は、高忠実なレンダリングやシーン再構成において大きな可能性を示している。
COLMAPはポーズを推定する前処理によく使用される。
我々は,3~6面のシーン画像のみを用いて,少数視点のNeRF再構成を実現することを目的としている。
論文 参考訳(メタデータ) (2024-08-29T16:37:58Z) - SpaRP: Fast 3D Object Reconstruction and Pose Estimation from Sparse Views [36.02533658048349]
本研究では,3次元テクスチャメッシュを再構成し,スパースビュー画像に対する相対カメラのポーズを推定する新しい手法であるSpaRPを提案する。
SpaRPは2次元拡散モデルから知識を抽出し、それらを微調整し、スパースビュー間の3次元空間関係を暗黙的に推論する。
テクスチャ化されたメッシュを生成するのに、わずか20秒しかかからず、カメラは入力ビューにポーズする。
論文 参考訳(メタデータ) (2024-08-19T17:53:10Z) - Generalizable Pose Estimation Using Implicit Scene Representations [4.124185654280966]
6-DoFのポーズ推定は、ロボット操作パイプラインの重要なコンポーネントである。
本稿では,異なるポーズで表現できる十分な情報を含むモデルを用いたポーズ推定の一般化能力について論じる。
最終評価では,既存手法と比較して推論性能と速度が大幅に向上した。
論文 参考訳(メタデータ) (2023-05-26T20:42:52Z) - Few-View Object Reconstruction with Unknown Categories and Camera Poses [80.0820650171476]
この研究は、カメラのポーズやオブジェクトのカテゴリを知らない少数の画像から、一般的な現実世界のオブジェクトを再構築する。
私たちの研究の要点は、形状再構成とポーズ推定という、2つの基本的な3D視覚問題を解決することです。
提案手法は,各ビューから3次元特徴を予測し,それらを入力画像と組み合わせて活用し,クロスビュー対応を確立する。
論文 参考訳(メタデータ) (2022-12-08T18:59:02Z) - im2nerf: Image to Neural Radiance Field in the Wild [47.18702901448768]
im2nerfは、野生の1つの入力イメージが与えられた連続的な神経オブジェクト表現を予測する学習フレームワークである。
Im2nerfは、野生の単視未表示画像から新しいビューを合成するための最先端性能を実現する。
論文 参考訳(メタデータ) (2022-09-08T23:28:56Z) - Neural Rendering of Humans in Novel View and Pose from Monocular Video [68.37767099240236]
本稿では,新しい視点下で写真リアルな人間を生成し,モノクロ映像を入力として提示する新しい手法を提案する。
提案手法は,モノクラー映像を入力として,見知らぬポーズや新しい視点下での既存手法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-04T03:09:20Z) - Unsupervised Object Learning via Common Fate [61.14802390241075]
ビデオから生成オブジェクトモデルを学習することは、長い問題であり、因果的シーンモデリングに必要である。
この問題を3つの簡単なサブタスクに分解し、それぞれに候補解を提供する。
提案手法は,入力ビデオのオクルージョンを超えて一般化された生成モデルを学習することができることを示す。
論文 参考訳(メタデータ) (2021-10-13T08:22:04Z) - Wide-Area Crowd Counting: Multi-View Fusion Networks for Counting in
Large Scenes [50.744452135300115]
マルチビュー・クラウドカウントのためのディープニューラルネットワークフレームワークを提案する。
提案手法は,他のマルチビューカウントベースラインと比較して,最先端の結果が得られる。
論文 参考訳(メタデータ) (2020-12-02T03:20:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。