論文の概要: ERUPT: Efficient Rendering with Unposed Patch Transformer
- arxiv url: http://arxiv.org/abs/2503.24374v1
- Date: Mon, 31 Mar 2025 17:53:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:34:55.082778
- Title: ERUPT: Efficient Rendering with Unposed Patch Transformer
- Title(参考訳): ERUPT:未設定のパッチ変換器による効率的なレンダリング
- Authors: Maxim V. Shugaev, Vincent Chen, Maxim Karrenbach, Kyle Ashley, Bridget Kennedy, Naresh P. Cuntoor,
- Abstract要約: この研究は、RGB画像の小さなコレクションから、多様なシーンにおける新しいビュー合成の問題に対処する。
本研究では,非ポーズ画像を用いたシーンレンダリングを効率的に行うことのできる,最先端のシーン再構成モデルであるERUPTを提案する。
- 参考スコア(独自算出の注目度): 1.6715514162046485
- License:
- Abstract: This work addresses the problem of novel view synthesis in diverse scenes from small collections of RGB images. We propose ERUPT (Efficient Rendering with Unposed Patch Transformer) a state-of-the-art scene reconstruction model capable of efficient scene rendering using unposed imagery. We introduce patch-based querying, in contrast to existing pixel-based queries, to reduce the compute required to render a target view. This makes our model highly efficient both during training and at inference, capable of rendering at 600 fps on commercial hardware. Notably, our model is designed to use a learned latent camera pose which allows for training using unposed targets in datasets with sparse or inaccurate ground truth camera pose. We show that our approach can generalize on large real-world data and introduce a new benchmark dataset (MSVS-1M) for latent view synthesis using street-view imagery collected from Mapillary. In contrast to NeRF and Gaussian Splatting, which require dense imagery and precise metadata, ERUPT can render novel views of arbitrary scenes with as few as five unposed input images. ERUPT achieves better rendered image quality than current state-of-the-art methods for unposed image synthesis tasks, reduces labeled data requirements by ~95\% and decreases computational requirements by an order of magnitude, providing efficient novel view synthesis for diverse real-world scenes.
- Abstract(参考訳): この研究は、RGB画像の小さなコレクションから、多様なシーンにおける新しいビュー合成の問題に対処する。
本研究では,非ポーズ画像を用いた効率的なシーンレンダリングが可能な最先端のシーン再構成モデルであるERUPT(Efficient Rendering with Unposed Patch Transformer)を提案する。
我々は、既存のピクセルベースのクエリとは対照的に、パッチベースのクエリを導入し、ターゲットビューのレンダリングに必要な計算量を削減した。
これにより、トレーニング中のモデルと推論時のモデルの両方で、600fpsで商用ハードウェア上でレンダリングすることが可能になります。
特に、我々のモデルは学習済みの潜望カメラのポーズを使用して、スパースまたは不正確な地上の真理カメラのポーズを持つデータセットにおいて、未提示のターゲットを使用したトレーニングを可能にするように設計されている。
提案手法では,Mapillary から収集したストリートビュー画像を用いて,大規模実世界のデータを一般化し,遅延ビュー合成のためのベンチマークデータセット (MSVS-1M) を導入する。
濃密な画像と正確なメタデータを必要とするNeRFやGaussian Splattingとは対照的に、ERUPTは5つの未提示の入力画像で任意のシーンの新しいビューを描画することができる。
ERUPTは、未提示画像合成タスクの現在の最先端手法よりも優れたレンダリング画像品質を実現し、ラベル付きデータ要求を約95%減らし、計算要求を桁違いに減らし、多様な実世界のシーンに効率的な新しいビュー合成を提供する。
関連論文リスト
- StreetCrafter: Street View Synthesis with Controllable Video Diffusion Models [59.55232046525733]
我々は,LDARポイントクラウドレンダリングをピクセルレベルの条件として利用する,制御可能なビデオ拡散モデルであるStreetCrafterを紹介する。
さらに、画素レベルのLiDAR条件を利用することで、ターゲットシーンに対して正確なピクセルレベルの編集を行うことができる。
我々のモデルは視点変化を柔軟に制御し、レンダリング領域を満たすためのビューを拡大する。
論文 参考訳(メタデータ) (2024-12-17T18:58:55Z) - Gaussian-SLAM: Photo-realistic Dense SLAM with Gaussian Splatting [24.160436463991495]
本稿では3次元ガウスアンをシーン表現として用いたSLAM法を提案する。
本手法は,実世界のシングルカメラRGBDビデオから,インタラクティブなリアルタイム再構成と写真リアルレンダリングを実現する。
論文 参考訳(メタデータ) (2023-12-06T10:47:53Z) - SAMPLING: Scene-adaptive Hierarchical Multiplane Images Representation
for Novel View Synthesis from a Single Image [60.52991173059486]
単一画像からの新規ビュー合成のためのシーン適応型階層型多面体画像表現であるSAMPlingを紹介する。
提案手法は,KITTIデータセット上の単一画像を用いて,大規模非有界屋外シーンにおいてかなりの性能向上を示す。
論文 参考訳(メタデータ) (2023-09-12T15:33:09Z) - {\mu}Split: efficient image decomposition for microscopy data [50.794670705085835]
muSplitは、蛍光顕微鏡画像の文脈で訓練された画像分解のための専用アプローチである。
本稿では,大規模な画像コンテキストのメモリ効率向上を実現するメタアーキテクチャである横型文脈化(LC)を提案する。
muSplitを5つの分解タスクに適用し、1つは合成データセットに、もう4つは実際の顕微鏡データから導出する。
論文 参考訳(メタデータ) (2022-11-23T11:26:24Z) - Multi-View Object Pose Refinement With Differentiable Renderer [22.040014384283378]
本稿では,合成データの学習方法の改善に焦点をあてた,新しい多視点6 DoFオブジェクトポーズ改善手法を提案する。
これはDPOD検出器に基づいており、各フレーム内のモデル頂点と画像画素との間の密度の高い2D-3D対応を生成する。
合成および実データに基づいて訓練された最先端の手法と比較して優れた性能を報告した。
論文 参考訳(メタデータ) (2022-07-06T17:02:22Z) - RTMV: A Ray-Traced Multi-View Synthetic Dataset for Novel View Synthesis [104.53930611219654]
約2000の複雑なシーンからレンダリングされた300k画像からなる,新しいビュー合成のための大規模合成データセットを提案する。
データセットは、新しいビュー合成のための既存の合成データセットよりも桁違いに大きい。
高品質な3Dメッシュの4つのソースを使用して、私たちのデータセットのシーンは、カメラビュー、照明、形状、材料、テクスチャの難しいバリエーションを示します。
論文 参考訳(メタデータ) (2022-05-14T13:15:32Z) - Free View Synthesis [100.86844680362196]
本稿では,シーンの周囲に自由に分布する入力画像から新規なビュー合成手法を提案する。
本手法は,入力ビューの規則的な配置に依存しず,シーンを通して自由なカメラ運動のための画像の合成が可能であり,制約のない幾何学的レイアウトの一般的な場面で機能する。
論文 参考訳(メタデータ) (2020-08-12T18:16:08Z) - NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis [78.5281048849446]
本稿では,複雑なシーンの新たなビューを合成する手法を提案する。
提案アルゴリズムは,完全接続型(非畳み込み型)深層ネットワークを用いたシーンを表現する。
ボリュームレンダリングは自然に微分可能であるため、表現を最適化するのに必要な唯一の入力は、既知のカメラポーズを持つ画像の集合である。
論文 参考訳(メタデータ) (2020-03-19T17:57:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。