論文の概要: Exploring 3D-aware Latent Spaces for Efficiently Learning Numerous Scenes
- arxiv url: http://arxiv.org/abs/2403.11678v2
- Date: Fri, 17 May 2024 08:29:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-20 18:22:03.473756
- Title: Exploring 3D-aware Latent Spaces for Efficiently Learning Numerous Scenes
- Title(参考訳): 多数のシーンを効果的に学習するための3次元認識潜時空間の探索
- Authors: Antoine Schnepf, Karim Kassab, Jean-Yves Franceschi, Laurent Caraffa, Flavian Vasile, Jeremie Mary, Andrew Comport, Valérie Gouet-Brunet,
- Abstract要約: 本研究では,NeRFのスケーリングにより,多くの意味的類似シーンを学習する手法を提案する。
本手法は,1000シーンのトレーニングにおいて,有効メモリコストを44%削減し,実時間コストを86%削減する。
- 参考スコア(独自算出の注目度): 8.847448988112903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a method enabling the scaling of NeRFs to learn a large number of semantically-similar scenes. We combine two techniques to improve the required training time and memory cost per scene. First, we learn a 3D-aware latent space in which we train Tri-Plane scene representations, hence reducing the resolution at which scenes are learned. Moreover, we present a way to share common information across scenes, hence allowing for a reduction of model complexity to learn a particular scene. Our method reduces effective per-scene memory costs by 44% and per-scene time costs by 86% when training 1000 scenes. Our project page can be found at https://3da-ae.github.io .
- Abstract(参考訳): 本研究では,NeRFのスケーリングにより,多くの意味的類似シーンを学習する手法を提案する。
必要なトレーニング時間とシーン毎のメモリコストを改善するために、2つのテクニックを組み合わせています。
まず,Tri-Planeのシーン表現を訓練する3D対応潜伏空間を学習し,シーンを学習する解像度を下げる。
さらに,シーン間で共通情報を共有する方法を提案する。これにより,特定のシーンを学習するためのモデル複雑性の低減が可能になる。
本手法は,1000シーンのトレーニングにおいて,有効メモリコストを44%削減し,実時間コストを86%削減する。
私たちのプロジェクトページはhttps://3da-ae.github.io.comで閲覧できます。
関連論文リスト
- Scaled Inverse Graphics: Efficiently Learning Large Sets of 3D Scenes [8.847448988112903]
本研究では,大規模なシーン表現を効率的に学習するフレームワーク「スケールド・インバース・グラフィックス」を提案する。
i)シーンのサブセットで圧縮モデルをトレーニングし、(ii)より小さな表現でNeRFモデルをトレーニングする。
実際には,映像の解像度を抑えるため,潜時空間でNeRFを学習することでシーンの表現をコンパクト化し,シーン間で情報を共有することにより,NeRF表現の複雑さを低減させる。
論文 参考訳(メタデータ) (2024-10-31T08:58:00Z) - LT3SD: Latent Trees for 3D Scene Diffusion [71.91446143124648]
本稿では,大規模3次元シーン生成のための新しい潜時拡散モデルLT3SDを提案する。
大規模かつ高品質な非条件3Dシーン生成におけるLT3SDの有効性とメリットを実証する。
論文 参考訳(メタデータ) (2024-09-12T16:55:51Z) - 6Img-to-3D: Few-Image Large-Scale Outdoor Driving Scene Reconstruction [44.99833362998488]
本稿では, 高速でスケーラブルなトランスフォーマーベースエンコーダ・レンダ法である6Img-to-3Dを3次元再構成に導入する。
本手法は,大規模で非有界な屋外運転シナリオに対して,外向きの6つの入力画像から3次元のパラメータ化三面体を出力する。
論文 参考訳(メタデータ) (2024-04-18T17:58:16Z) - External Knowledge Enhanced 3D Scene Generation from Sketch [49.629444260115676]
本稿では,カスタマイズされた多種多様な3Dシーンを生成するためのスケッチベース知識拡張拡散アーキテクチャ(SEK)を提案する。
まず、オブジェクト関係を含む外部知識ベースを構築し、その後、知識強化グラフ推論を利用して手書きスケッチの理解を支援する。
3D-FRONTデータセットの実験により、我々のモデルは、最も近い競合であるDiffuSceneと比較して、FID、CKLを17.41%改善し、3Dシーン生成で37.18%改善し、FIDを19.12%改善し、20.06%改善した。
論文 参考訳(メタデータ) (2024-03-21T04:24:49Z) - SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections [49.802462165826554]
SceneDreamerは,非有界な3次元シーンの無条件生成モデルである。
フレームワークは,3Dアノテーションを使わずに,Wild 2Dイメージコレクションのみから学習する。
論文 参考訳(メタデータ) (2023-02-02T18:59:16Z) - Chat2Map: Efficient Scene Mapping from Multi-Ego Conversations [65.37621891132729]
本研究では,自然会話における参加者のエゴセントリックな音声・視覚的観察において,共有情報を活用することで,これまで見つからなかった3D環境の地図を構築する。
共有シーンマッパーと協調して、カメラを選択的にオンにして空間を効率よくチャートアウトする、オーディオ-視覚深層強化学習手法を提案する。
我々のモデルは従来の最先端マッピング手法よりも優れており、優れたコスト-精度トレードオフを実現する。
論文 参考訳(メタデータ) (2023-01-04T18:47:32Z) - Visual Localization via Few-Shot Scene Region Classification [84.34083435501094]
ビジュアル(再)ローカライゼーションは、既知のシーンでキャプチャされたクエリイメージの6-DoFカメラのポーズを推定する問題に対処する。
画像画素からシーン座標へのマッピングを記憶することで,この問題を解決する。
シーン領域の分類手法を提案する。
論文 参考訳(メタデータ) (2022-08-14T22:39:02Z) - RetrievalFuse: Neural 3D Scene Reconstruction with a Database [34.44425679892233]
トレーニングデータベースからシーンジオメトリを直接活用する新しい手法を紹介します。
まず,シーンデータベースから上位k個のボリュームチャンクを検索して構築した3次元シーンの初期推定値の合成を学習する。
これらの候補は最終シーン生成に洗練され、候補から最も一貫性のある幾何集合を効果的に選択できる注意に基づく改良がなされる。
本研究では,3次元超解像と疎点雲表面再構成のためのデータベースを用いて,神経シーンの再構成を実証する。
論文 参考訳(メタデータ) (2021-03-31T18:00:09Z) - Exploring Data-Efficient 3D Scene Understanding with Contrastive Scene
Contexts [21.201984953068614]
Contrastive Scene Contextsは、シーン内のポイントレベルの対応と空間コンテキストの両方を利用する3Dプリトレーニング方法です。
3次元点雲の徹底的なラベリングは不要である可能性が示唆された。
ScanNetでは、ポイントラベルの0.1%を使用しても、完全なアノテーションを使用するベースラインパフォーマンスの89%(インスタンスセグメンテーション)と96%(セグメンテーション)を達成しています。
論文 参考訳(メタデータ) (2020-12-16T18:59:26Z) - Toward Accurate Person-level Action Recognition in Videos of Crowded
Scenes [131.9067467127761]
我々は、シーンの情報を完全に活用し、新しいデータを集めることで、アクション認識を改善することに集中する。
具体的には、各フレームの空間的位置を検出するために、強い人間の検出器を採用する。
そして、行動認識モデルを適用して、HIEデータセットとインターネットから多様なシーンを持つ新しいデータの両方でビデオフレームから時間情報を学ぶ。
論文 参考訳(メタデータ) (2020-10-16T13:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。