論文の概要: Learn Your Scales: Towards Scale-Consistent Generative Novel View Synthesis
- arxiv url: http://arxiv.org/abs/2503.15412v1
- Date: Wed, 19 Mar 2025 16:56:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:23:10.638180
- Title: Learn Your Scales: Towards Scale-Consistent Generative Novel View Synthesis
- Title(参考訳): スケールを学習する:スケール一貫性のある新規ビュー合成を目指して
- Authors: Fereshteh Forghani, Jason J. Yu, Tristan Aumentado-Armstrong, Konstantinos G. Derpanis, Marcus A. Brubaker,
- Abstract要約: 生成的新規なビュー合成法を訓練する際に, スケールあいまいさの影響を理解し, 対処する方法を模索する。
GNVSでは、シーンやオブジェクトの新たなビューは、単一のイメージによって最小限に合成することができ、したがって制限されない。
GNVSにおけるシーンスケールのあいまいさが単一画像からサンプル化した場合の効果について,その効果をモデル上で分離することによって検討した。
- 参考スコア(独自算出の注目度): 23.967904337714234
- License:
- Abstract: Conventional depth-free multi-view datasets are captured using a moving monocular camera without metric calibration. The scales of camera positions in this monocular setting are ambiguous. Previous methods have acknowledged scale ambiguity in multi-view data via various ad-hoc normalization pre-processing steps, but have not directly analyzed the effect of incorrect scene scales on their application. In this paper, we seek to understand and address the effect of scale ambiguity when used to train generative novel view synthesis methods (GNVS). In GNVS, new views of a scene or object can be minimally synthesized given a single image and are, thus, unconstrained, necessitating the use of generative methods. The generative nature of these models captures all aspects of uncertainty, including any uncertainty of scene scales, which act as nuisance variables for the task. We study the effect of scene scale ambiguity in GNVS when sampled from a single image by isolating its effect on the resulting models and, based on these intuitions, define new metrics that measure the scale inconsistency of generated views. We then propose a framework to estimate scene scales jointly with the GNVS model in an end-to-end fashion. Empirically, we show that our method reduces the scale inconsistency of generated views without the complexity or downsides of previous scale normalization methods. Further, we show that removing this ambiguity improves generated image quality of the resulting GNVS model.
- Abstract(参考訳): 従来の奥行きのないマルチビューデータセットは、メートル法キャリブレーションなしで動くモノクロカメラを用いてキャプチャされる。
このモノクラーセッティングにおけるカメラ位置のスケールは曖昧である。
従来の手法では,様々なアドホック正規化前処理ステップを通じて,マルチビューデータのスケールのあいまいさを認識していたが,不正確なシーンスケールがアプリケーションに与える影響を直接分析することはできなかった。
本稿では,GNVS(ジェネレーティブ・ノベルビュー・シンセサイティング・メソッド)の学習において,スケールのあいまいさの影響について理解し,対処することを目的とする。
GNVSでは、シーンまたはオブジェクトの新しいビューは、単一の画像から最小限に合成することができ、したがって、生成メソッドの使用を必要としない。
これらのモデルの生成的性質は、タスクのニュアンス変数として機能するシーンスケールの不確実性を含む、不確実性のすべての側面をキャプチャする。
本稿では,GNVSにおけるシーンスケールのあいまいさの影響について検討し,その結果のモデルに対する効果を分離し,これらの直観に基づいて,生成したビューのスケール不整合を計測する新しい指標を定義する。
次に,GNVSモデルと協調してシーンスケールをエンドツーエンドで推定するフレームワークを提案する。
実験により,本手法は,従来のスケール正規化手法の複雑さや欠点を伴わずに,生成したビューのスケール不整合を低減できることを示す。
さらに,この曖昧さを除去することで,生成したGNVSモデルの画質が向上することを示す。
関連論文リスト
- No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。
提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。
この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:22Z) - RANRAC: Robust Neural Scene Representations via Random Ray Consensus [12.161889666145127]
RANRAC(RANdom RAy Consensus)は、一貫性のないデータの影響を排除するための効率的な手法である。
我々はRANSACパラダイムのファジィ適応を定式化し、大規模モデルへの適用を可能にした。
その結果, 新規な視点合成のための最先端のロバストな手法と比較して, 顕著な改善が見られた。
論文 参考訳(メタデータ) (2023-12-15T13:33:09Z) - SAMPLING: Scene-adaptive Hierarchical Multiplane Images Representation
for Novel View Synthesis from a Single Image [60.52991173059486]
単一画像からの新規ビュー合成のためのシーン適応型階層型多面体画像表現であるSAMPlingを紹介する。
提案手法は,KITTIデータセット上の単一画像を用いて,大規模非有界屋外シーンにおいてかなりの性能向上を示す。
論文 参考訳(メタデータ) (2023-09-12T15:33:09Z) - Self-improving Multiplane-to-layer Images for Novel View Synthesis [3.9901365062418312]
本稿では,任意の前向きシーンに一般化する軽量ノベルビュー合成法を提案する。
まず、フロント並列半透明平面を用いてシーンを表現し、その後、エンド・ツー・エンドで変形可能なレイヤに変換する。
本手法では,新しいシーンが処理された場合の微調整を必要とせず,制限なく任意の数のビューを処理できる。
論文 参考訳(メタデータ) (2022-10-04T13:27:14Z) - im2nerf: Image to Neural Radiance Field in the Wild [47.18702901448768]
im2nerfは、野生の1つの入力イメージが与えられた連続的な神経オブジェクト表現を予測する学習フレームワークである。
Im2nerfは、野生の単視未表示画像から新しいビューを合成するための最先端性能を実現する。
論文 参考訳(メタデータ) (2022-09-08T23:28:56Z) - Arbitrary-Scale Image Synthesis [149.0290830305808]
位置エンコーディングにより、1つの敵ネットワークをトレーニングし、異なるスケールの画像を生成することができる。
生成器の変換層に不変なスケール一貫性のある位置符号化の設計を提案する。
画像合成のための様々な一般的なデータセットに対して,連続したスケールの競合結果を示す。
論文 参考訳(メタデータ) (2022-04-05T15:10:43Z) - Wide-Depth-Range 6D Object Pose Estimation in Space [124.94794113264194]
宇宙での6Dポーズ推定は、地上環境では一般的に遭遇しないユニークな課題を引き起こします。
最も顕著な違いの1つは、大気の散乱の欠如であり、物体を遠くから見えるようにします。
本稿では,単一段階の階層型エンドツーエンドトレーニングネットワークを提案する。
論文 参考訳(メタデータ) (2021-04-01T08:39:26Z) - Stable View Synthesis [100.86844680362196]
安定ビュー合成(SVS)について紹介する。
SVSは、自由に分散された視点からシーンを描写するソースイメージのセットを与えられた場合、シーンの新たなビューを合成する。
SVSは3つの異なる実世界のデータセットに対して定量的かつ質的に、最先端のビュー合成手法より優れている。
論文 参考訳(メタデータ) (2020-11-14T07:24:43Z) - Single View Metrology in the Wild [94.7005246862618]
本研究では,物体の3次元の高さや地上のカメラの高さで表現されるシーンの絶対的なスケールを再現する,単一ビューメロジに対する新しいアプローチを提案する。
本手法は,被写体の高さなどの3Dエンティティによる未知のカメラとの相互作用から,弱い教師付き制約を抑えるために設計されたディープネットワークによって学習されたデータ駆動の先行情報に依存する。
いくつかのデータセットと仮想オブジェクト挿入を含むアプリケーションに対して、最先端の定性的かつ定量的な結果を示す。
論文 参考訳(メタデータ) (2020-07-18T22:31:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。