論文の概要: Scaled Inverse Graphics: Efficiently Learning Large Sets of 3D Scenes
- arxiv url: http://arxiv.org/abs/2410.23742v1
- Date: Thu, 31 Oct 2024 08:58:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:01:52.077574
- Title: Scaled Inverse Graphics: Efficiently Learning Large Sets of 3D Scenes
- Title(参考訳): スケールされた逆グラフ:3次元シーンの大規模集合を効果的に学習する
- Authors: Karim Kassab, Antoine Schnepf, Jean-Yves Franceschi, Laurent Caraffa, Flavian Vasile, Jeremie Mary, Andrew Comport, Valérie Gouet-Brunet,
- Abstract要約: 本研究では,大規模なシーン表現を効率的に学習するフレームワーク「スケールド・インバース・グラフィックス」を提案する。
i)シーンのサブセットで圧縮モデルをトレーニングし、(ii)より小さな表現でNeRFモデルをトレーニングする。
実際には,映像の解像度を抑えるため,潜時空間でNeRFを学習することでシーンの表現をコンパクト化し,シーン間で情報を共有することにより,NeRF表現の複雑さを低減させる。
- 参考スコア(独自算出の注目度): 8.847448988112903
- License:
- Abstract: While the field of inverse graphics has been witnessing continuous growth, techniques devised thus far predominantly focus on learning individual scene representations. In contrast, learning large sets of scenes has been a considerable bottleneck in NeRF developments, as repeatedly applying inverse graphics on a sequence of scenes, though essential for various applications, remains largely prohibitive in terms of resource costs. We introduce a framework termed "scaled inverse graphics", aimed at efficiently learning large sets of scene representations, and propose a novel method to this end. It operates in two stages: (i) training a compression model on a subset of scenes, then (ii) training NeRF models on the resulting smaller representations, thereby reducing the optimization space per new scene. In practice, we compact the representation of scenes by learning NeRFs in a latent space to reduce the image resolution, and sharing information across scenes to reduce NeRF representation complexity. We experimentally show that our method presents both the lowest training time and memory footprint in scaled inverse graphics compared to other methods applied independently on each scene. Our codebase is publicly available as open-source. Our project page can be found at https://scaled-ig.github.io .
- Abstract(参考訳): 逆グラフの分野は、連続的な成長を目撃してきたが、これまで発明された技術は、個々のシーン表現の学習に重点を置いてきた。
対照的に、大規模なシーンの学習はNeRFの発展においてかなりのボトルネックとなり、様々な用途に欠かせないが、リソースコストの面では禁止されている。
本研究では,大規模なシーン表現を効率的に学習するフレームワーク「スケールド・インバース・グラフィックス」を導入し,その目的を達成するための新しい手法を提案する。
2つの段階に分かれている。
(i)シーンのサブセットで圧縮モデルを訓練し、
(2) 結果の小さい表現に対してNeRFモデルをトレーニングすることにより、新しいシーン当たりの最適化スペースを削減できる。
実際には,映像の解像度を抑えるため,潜時空間でNeRFを学習することでシーンの表現をコンパクト化し,シーン間で情報を共有することにより,NeRF表現の複雑さを低減させる。
本手法は,各シーンに独立して適用された他の手法と比較して,スケールした逆画像において,トレーニング時間とメモリフットプリントの両方が低いことを示す。
私たちのコードベースはオープンソースとして公開されています。
私たちのプロジェクトページはhttps://scaled-ig.github.io.comで参照できます。
関連論文リスト
- PlanarSplatting: Accurate Planar Surface Reconstruction in 3 Minutes [32.00236197233923]
PlanarSplattingはマルチビュー屋内画像のための超高速かつ高精度な表面再構成手法である。
PlanarSplattingは3分で室内のシーンを再構築し、幾何学的精度は大幅に向上した。
論文 参考訳(メタデータ) (2024-12-04T16:38:07Z) - MonoPlane: Exploiting Monocular Geometric Cues for Generalizable 3D Plane Reconstruction [37.481945507799594]
本稿では,MonoPlaneという汎用的な3次元平面検出・再構成フレームワークを提案する。
まず、大規模な事前学習ニューラルネットワークを用いて、1つの画像から深度と表面の正常値を得る。
これらの特異な幾何学的手がかりを近接誘導RANSACフレームワークに組み込んで各平面インスタンスに順次適合させる。
論文 参考訳(メタデータ) (2024-11-02T12:15:29Z) - LT3SD: Latent Trees for 3D Scene Diffusion [71.91446143124648]
本稿では,大規模3次元シーン生成のための新しい潜時拡散モデルLT3SDを提案する。
大規模かつ高品質な非条件3Dシーン生成におけるLT3SDの有効性とメリットを実証する。
論文 参考訳(メタデータ) (2024-09-12T16:55:51Z) - Disentangled 3D Scene Generation with Layout Learning [109.03233745767062]
本稿では,コンポーネントオブジェクトに絡み合った3Dシーンを生成する手法を提案する。
私たちの重要な洞察は、オブジェクトは空間的に再構成された場合、同じシーンの有効な構成を生成する3Dシーンの一部を見つけることで発見できるということです。
単純さにもかかわらず、我々のアプローチは個々のオブジェクトに3Dシーンを生成することに成功している。
論文 参考訳(メタデータ) (2024-02-26T18:54:15Z) - BlockFusion: Expandable 3D Scene Generation using Latent Tri-plane Extrapolation [51.030773085422034]
BlockFusionは拡散ベースのモデルで、3Dシーンを単位ブロックとして生成し、シーンを拡張するためにシームレスに新しいブロックを組み込む。
シーン要素の配置と配置を制御するために2次元レイアウトコンディショニング機構を使用する。
実験結果から、BlockFusionは多様な、幾何学的に整合性があり、拘束力のない大きな3Dシーンを生成可能であることが示唆された。
論文 参考訳(メタデータ) (2024-01-30T14:34:19Z) - Convolutional Occupancy Models for Dense Packing of Complex, Novel
Objects [75.54599721349037]
実世界における密包装のための既成の計画手法と容易に組み合わせることができる完全畳み込み形状完備モデルF-CONを提案する。
シミュレーションデータセットであるCOB-3D-v2もリリースしています。
最後に、F-CONと現実世界のピック・アンド・プレイス・システムを備え、散らばったシーンで複雑で見えない物体を密集したパッキングを実演する。
論文 参考訳(メタデータ) (2023-07-31T19:08:16Z) - K-Planes: Explicit Radiance Fields in Space, Time, and Appearance [32.78595254330191]
任意の次元の放射場に対するホワイトボックスモデルであるk平面を導入する。
我々のモデルは、D次元のシーンを表現するためにd choose 2平面を使用し、静的なシーンからダイナミックなシーンへシームレスな方法を提供します。
合成され、リアルで、静的で、動的で、固定され、様々な外観シーンにおいて、k面は競争力があり、しばしば最先端の復元忠実さをもたらす。
論文 参考訳(メタデータ) (2023-01-24T18:59:08Z) - HexPlane: A Fast Representation for Dynamic Scenes [18.276921637560445]
動的3Dシーンは、6つの学習された特徴の平面で明示的に表現できることを示し、HexPlaneと呼ばれるエレガントなソリューションを生み出します。
HexPlaneは、高効率な各平面から抽出されたベクトルを融合させることにより、時空の点の特徴を計算する。
論文 参考訳(メタデータ) (2023-01-23T18:59:25Z) - Neural 3D Scene Reconstruction with the Manhattan-world Assumption [58.90559966227361]
本稿では,多視点画像から3次元屋内シーンを再構築する課題について述べる。
平面的制約は、最近の暗黙の神経表現に基づく再構成手法に便利に組み込むことができる。
提案手法は, 従来の手法よりも3次元再構成品質に優れていた。
論文 参考訳(メタデータ) (2022-05-05T17:59:55Z) - 3D Sketch-aware Semantic Scene Completion via Semi-supervised Structure
Prior [50.73148041205675]
セマンティック・シーン・コンプリート(SSC)タスクの目標は、単一視点で観察することで、ボリューム占有率とシーン内のオブジェクトの意味ラベルの完全な3Dボクセル表現を同時に予測することである。
低解像度のボクセル表現で深度情報を埋め込む新しい幾何学的手法を提案する。
提案手法は,SSCフレームワークからの深度特徴学習よりも有効である。
論文 参考訳(メタデータ) (2020-03-31T09:33:46Z) - Planar Prior Assisted PatchMatch Multi-View Stereo [32.41293572426403]
3Dモデルの完全性は、マルチビューステレオでは依然として難しい問題である。
平面モデルは低テクスチャ領域の深さ推定に有利である。
PatchMatchマルチビューステレオは、サンプリングおよび伝搬方式において非常に効率的である。
論文 参考訳(メタデータ) (2019-12-26T01:34:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。