論文の概要: 6Img-to-3D: Few-Image Large-Scale Outdoor Driving Scene Reconstruction
- arxiv url: http://arxiv.org/abs/2404.12378v1
- Date: Thu, 18 Apr 2024 17:58:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 18:42:29.768698
- Title: 6Img-to-3D: Few-Image Large-Scale Outdoor Driving Scene Reconstruction
- Title(参考訳): 6Img-to-3D:Few-Image Large-Scale Driving Scene Reconstruction
- Authors: Théo Gieruc, Marius Kästingschäfer, Sebastian Bernhard, Mathieu Salzmann,
- Abstract要約: 本稿では, 高速でスケーラブルなトランスフォーマーベースエンコーダ・レンダ法である6Img-to-3Dを3次元再構成に導入する。
本手法は,大規模で非有界な屋外運転シナリオに対して,外向きの6つの入力画像から3次元のパラメータ化三面体を出力する。
- 参考スコア(独自算出の注目度): 44.99833362998488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current 3D reconstruction techniques struggle to infer unbounded scenes from a few images faithfully. Specifically, existing methods have high computational demands, require detailed pose information, and cannot reconstruct occluded regions reliably. We introduce 6Img-to-3D, an efficient, scalable transformer-based encoder-renderer method for single-shot image to 3D reconstruction. Our method outputs a 3D-consistent parameterized triplane from only six outward-facing input images for large-scale, unbounded outdoor driving scenarios. We take a step towards resolving existing shortcomings by combining contracted custom cross- and self-attention mechanisms for triplane parameterization, differentiable volume rendering, scene contraction, and image feature projection. We showcase that six surround-view vehicle images from a single timestamp without global pose information are enough to reconstruct 360$^{\circ}$ scenes during inference time, taking 395 ms. Our method allows, for example, rendering third-person images and birds-eye views. Our code is available at https://github.com/continental/6Img-to-3D, and more examples can be found at our website here https://6Img-to-3D.GitHub.io/.
- Abstract(参考訳): 現在の3D再構成技術は、いくつかの画像から無界のシーンを忠実に推測するのに苦労している。
具体的には、既存の手法は高い計算要求を持ち、詳細なポーズ情報を必要とし、隠蔽領域を確実に再構築することができない。
本稿では, 高速でスケーラブルなトランスフォーマーベースエンコーダ・レンダ法である6Img-to-3Dを3次元再構成に導入する。
本手法は,大規模で非有界な屋外運転シナリオに対して,外向きの6つの入力画像から3次元のパラメータ化三面体を出力する。
我々は,3面パラメータ化,可変ボリュームレンダリング,シーンの縮小,画像の特徴投影といった,契約されたクロス・アンド・セルフアテンション機構を組み合わせることで,既存の欠点を解決するための一歩を踏み出した。
グローバルなポーズ情報のない単一タイムスタンプから得られた6つのサラウンドビュー車両画像は、推定時間中に360$^{\circ}$のシーンを再構築するのに十分であることを示す。
私たちのコードはhttps://github.com/continental/6Img-to-3Dで入手できます。
関連論文リスト
- CAT3D: Create Anything in 3D with Multi-View Diffusion Models [87.80820708758317]
CAT3D(CAT3D)は,この実世界のキャプチャプロセスを多視点拡散モデルでシミュレートし,任意のものを3Dで作成する手法である。
CAT3Dは1分で3Dシーン全体を作成できる。
論文 参考訳(メタデータ) (2024-05-16T17:59:05Z) - Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z) - BerfScene: Bev-conditioned Equivariant Radiance Fields for Infinite 3D
Scene Generation [96.58789785954409]
本研究では,同変放射場と鳥眼視図のガイダンスを組み込んだ実用的で効率的な3次元表現を提案する。
局所的なシーンを合成し、スムーズな一貫性で縫い合わせることで、大規模で無限スケールの3Dシーンを作ります。
論文 参考訳(メタデータ) (2023-12-04T18:56:10Z) - Neural 3D Scene Reconstruction from Multiple 2D Images without 3D
Supervision [41.20504333318276]
平面制約下でのスパース深度を用いてシーンを3次元の監督なしに再構成する新しいニューラル再構成法を提案する。
シーンを表すために,符号付き距離関数場,色場,確率場を導入する。
我々は、これらのフィールドを最適化し、2D画像で識別可能な光線マーキングを監督することでシーンを再構築する。
論文 参考訳(メタデータ) (2023-06-30T13:30:48Z) - Persistent Nature: A Generative Model of Unbounded 3D Worlds [74.51149070418002]
任意のカメラポーズから3Dデコーダとボリュームレンダリングによって描画できる拡張可能な平面配置グリッドを提案する。
この表現に基づいて、単一視点のインターネット写真のみから生成的世界モデルを学ぶ。
提案手法は,現在の3次元生成モデルの固定境界を超えるシーン外挿を可能にするとともに,永続的でカメラに依存しない世界表現をサポートする。
論文 参考訳(メタデータ) (2023-03-23T17:59:40Z) - PIZZA: A Powerful Image-only Zero-Shot Zero-CAD Approach to 6 DoF
Tracking [27.283648727847268]
トレーニング画像も3次元形状も利用できない場合,RGBビデオシーケンス中の物体の6次元動きを追跡する手法を提案する。
従来の研究とは対照的に,本手法はオープンワールドにおける未知の物体を瞬時に考慮することができる。
挑戦的なデータセットに関する私たちの結果は、もっと多くの情報を必要とする以前の作業と同等です。
論文 参考訳(メタデータ) (2022-09-15T19:55:13Z) - Multi-View Transformer for 3D Visual Grounding [64.30493173825234]
3次元視覚グラウンドリングのためのマルチビュー変換器(MVT)を提案する。
我々は3Dシーンを多視点空間に投影し、異なるビュー下の3Dシーンの位置情報を同時にモデル化して集約する。
論文 参考訳(メタデータ) (2022-04-05T12:59:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。