論文の概要: Scaled Inverse Graphics: Efficiently Learning Large Sets of 3D Scenes
- arxiv url: http://arxiv.org/abs/2410.23742v1
- Date: Thu, 31 Oct 2024 08:58:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:01:52.077574
- Title: Scaled Inverse Graphics: Efficiently Learning Large Sets of 3D Scenes
- Title(参考訳): スケールされた逆グラフ:3次元シーンの大規模集合を効果的に学習する
- Authors: Karim Kassab, Antoine Schnepf, Jean-Yves Franceschi, Laurent Caraffa, Flavian Vasile, Jeremie Mary, Andrew Comport, Valérie Gouet-Brunet,
- Abstract要約: 本研究では,大規模なシーン表現を効率的に学習するフレームワーク「スケールド・インバース・グラフィックス」を提案する。
i)シーンのサブセットで圧縮モデルをトレーニングし、(ii)より小さな表現でNeRFモデルをトレーニングする。
実際には,映像の解像度を抑えるため,潜時空間でNeRFを学習することでシーンの表現をコンパクト化し,シーン間で情報を共有することにより,NeRF表現の複雑さを低減させる。
- 参考スコア(独自算出の注目度): 8.847448988112903
- License:
- Abstract: While the field of inverse graphics has been witnessing continuous growth, techniques devised thus far predominantly focus on learning individual scene representations. In contrast, learning large sets of scenes has been a considerable bottleneck in NeRF developments, as repeatedly applying inverse graphics on a sequence of scenes, though essential for various applications, remains largely prohibitive in terms of resource costs. We introduce a framework termed "scaled inverse graphics", aimed at efficiently learning large sets of scene representations, and propose a novel method to this end. It operates in two stages: (i) training a compression model on a subset of scenes, then (ii) training NeRF models on the resulting smaller representations, thereby reducing the optimization space per new scene. In practice, we compact the representation of scenes by learning NeRFs in a latent space to reduce the image resolution, and sharing information across scenes to reduce NeRF representation complexity. We experimentally show that our method presents both the lowest training time and memory footprint in scaled inverse graphics compared to other methods applied independently on each scene. Our codebase is publicly available as open-source. Our project page can be found at https://scaled-ig.github.io .
- Abstract(参考訳): 逆グラフの分野は、連続的な成長を目撃してきたが、これまで発明された技術は、個々のシーン表現の学習に重点を置いてきた。
対照的に、大規模なシーンの学習はNeRFの発展においてかなりのボトルネックとなり、様々な用途に欠かせないが、リソースコストの面では禁止されている。
本研究では,大規模なシーン表現を効率的に学習するフレームワーク「スケールド・インバース・グラフィックス」を導入し,その目的を達成するための新しい手法を提案する。
2つの段階に分かれている。
(i)シーンのサブセットで圧縮モデルを訓練し、
(2) 結果の小さい表現に対してNeRFモデルをトレーニングすることにより、新しいシーン当たりの最適化スペースを削減できる。
実際には,映像の解像度を抑えるため,潜時空間でNeRFを学習することでシーンの表現をコンパクト化し,シーン間で情報を共有することにより,NeRF表現の複雑さを低減させる。
本手法は,各シーンに独立して適用された他の手法と比較して,スケールした逆画像において,トレーニング時間とメモリフットプリントの両方が低いことを示す。
私たちのコードベースはオープンソースとして公開されています。
私たちのプロジェクトページはhttps://scaled-ig.github.io.comで参照できます。
関連論文リスト
- SCARF: Scalable Continual Learning Framework for Memory-efficient Multiple Neural Radiance Fields [9.606992888590757]
我々は,多層パーセプトロンを用いてシーンの密度と放射場を暗黙の関数としてモデル化するニューラルレージアンス場(NeRF)を構築した。
本研究では, 既往のシーンの放射界知識を新しいモデルに転送するための, 不確実な表面知識蒸留戦略を提案する。
実験の結果,提案手法はNeRF-Synthetic, LLFF, TanksAndTemplesデータセット上での連続学習NeRFの最先端のレンダリング品質を実現する。
論文 参考訳(メタデータ) (2024-09-06T03:36:12Z) - DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - VastGaussian: Vast 3D Gaussians for Large Scene Reconstruction [59.40711222096875]
VastGaussianは3次元ガウススティングに基づく大規模シーンにおける高品質な再構成とリアルタイムレンダリングのための最初の方法である。
提案手法は既存のNeRF手法より優れており,複数の大規模シーンデータセットの最先端結果が得られる。
論文 参考訳(メタデータ) (2024-02-27T11:40:50Z) - BirdNeRF: Fast Neural Reconstruction of Large-Scale Scenes From Aerial
Imagery [3.4956406636452626]
本研究では,空中画像を用いた大規模シーンの再構成に特化して設計されたNeRF(Neural Radiance Fields)の適応版であるBirdNeRFを紹介する。
本稿では,大規模な空中画像集合を複数小集合に分解し,空間分解アルゴリズムを提案する。
我々は、既存のデータセットと、独自のドローン映像に対するアプローチを評価し、従来のフォトグラムソフトウェアよりも10倍、最先端の大規模NeRFソリューションよりも50倍の再現速度を向上した。
論文 参考訳(メタデータ) (2024-02-07T03:18:34Z) - Adaptive Voronoi NeRFs [9.973103531980838]
Neural Radiance Fieldsは、登録された画像のセットから3Dシーンを表現することを学ぶ。
ボロノイ図形の階層構造がシーン分割に適した選択であることを示す。
それぞれのVoronoiセルに独自のNeRFを組み込むことで,シーン表現を迅速に学習することができる。
論文 参考訳(メタデータ) (2023-03-28T14:16:08Z) - AligNeRF: High-Fidelity Neural Radiance Fields via Alignment-Aware
Training [100.33713282611448]
我々は、高分解能データによるNeRFのトレーニングに関する最初のパイロット研究を行う。
本稿では,多層パーセプトロンと畳み込み層との結合を含む,対応する解を提案する。
私たちのアプローチは、明らかなトレーニング/テストコストを導入することなく、ほぼ無償です。
論文 参考訳(メタデータ) (2022-11-17T17:22:28Z) - Compressible-composable NeRF via Rank-residual Decomposition [21.92736190195887]
ニューラル・ラジアンス・フィールド(NeRF)は、3Dオブジェクトやシーンをリアルにレンダリングするための魅力的な方法として登場した。
本稿では,モデルの効率的かつ便利な操作を可能にするニューラル表現を提案する。
提案手法は,圧縮と合成の余分な能力を実現しつつ,最先端の手法に匹敵するレンダリング品質を実現することができる。
論文 参考訳(メタデータ) (2022-05-30T06:18:59Z) - Frame-wise Action Representations for Long Videos via Sequence
Contrastive Learning [44.412145665354736]
本稿では,フレームワイドな行動表現を学習するための,新しいコントラッシブな行動表現学習フレームワークを提案する。
自己教師型学習の最近の進歩に触発されて,2つの相関する視点に適用した新しいシーケンス・コントラッシブ・ロス(SCL)を提案する。
提案手法は,映像アライメントや細かなフレーム検索作業において,優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-28T17:59:54Z) - StEP: Style-based Encoder Pre-training for Multi-modal Image Synthesis [68.3787368024951]
マルチモーダルイメージ・ツー・イメージ(I2I)翻訳のための新しいアプローチを提案する。
我々は、出力領域の可変性をモデル化する潜伏埋め込みをジェネレータと共同で学習する。
具体的には、新しいプロキシタスクを用いて汎用的なスタイルエンコーダを事前訓練し、任意のドメインから低次元のスタイル潜在空間への画像の埋め込みを学習する。
論文 参考訳(メタデータ) (2021-04-14T19:58:24Z) - IBRNet: Learning Multi-View Image-Based Rendering [67.15887251196894]
本稿では,近接ビューの疎集合を補間することにより,複雑なシーンの新しいビューを合成する手法を提案する。
レンダリング時にソースビューを描画することで、画像ベースのレンダリングに関する古典的な作業に戻ります。
論文 参考訳(メタデータ) (2021-02-25T18:56:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。