論文の概要: Fused-Planes: Improving Planar Representations for Learning Large Sets of 3D Scenes
- arxiv url: http://arxiv.org/abs/2410.23742v2
- Date: Fri, 31 Jan 2025 11:23:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:50:17.512992
- Title: Fused-Planes: Improving Planar Representations for Learning Large Sets of 3D Scenes
- Title(参考訳): Fused-Planes:大規模3Dシーンの学習のための平面表現の改善
- Authors: Karim Kassab, Antoine Schnepf, Jean-Yves Franceschi, Laurent Caraffa, Flavian Vasile, Jeremie Mary, Andrew Comport, Valérie Gouet-Brunet,
- Abstract要約: 大規模なシーンを学習するフレームワークにおいて,Tri-Planesの資源効率を向上させる新しい平面アーキテクチャであるFused-Planesを紹介した。
i)圧縮モデルと共同でシーンの最初のサブセットを訓練し、(ii)圧縮モデルを用いて残りのシーンを学習する。
この圧縮モデルは、Fused-Planesが学習される3D対応の潜在空間で構成され、レンダリングの解像度を低減し、シーン間の共有構造によりシーン表現の複雑さを低減させる。
- 参考スコア(独自算出の注目度): 8.847448988112903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To learn large sets of scenes, Tri-Planes are commonly employed for their planar structure that enables an interoperability with image models, and thus diverse 3D applications. However, this advantage comes at the cost of resource efficiency, as Tri-Planes are not the most computationally efficient option. In this paper, we introduce Fused-Planes, a new planar architecture that improves Tri-Planes resource-efficiency in the framework of learning large sets of scenes, which we call "multi-scene inverse graphics". To learn a large set of scenes, our method divides it into two subsets and operates as follows: (i) we train the first subset of scenes jointly with a compression model, (ii) we use that compression model to learn the remaining scenes. This compression model consists of a 3D-aware latent space in which Fused-Planes are learned, enabling a reduced rendering resolution, and shared structures across scenes that reduce scene representation complexity. Fused-Planes present competitive resource costs in multi-scene inverse graphics, while preserving Tri-Planes rendering quality, and maintaining their widely favored planar structure. Our codebase is publicly available as open-source. Our project page can be found at https://fused-planes.github.io .
- Abstract(参考訳): 大規模なシーンを学習するために、Tri-Planeはイメージモデルとの相互運用性を実現するための平面構造のために一般的に使用される。
しかし、この利点はリソース効率のコストが伴うため、Tri-Planesは最も計算効率のよい選択肢ではない。
本稿では,大規模なシーン集合を学習するフレームワークにおいて,Tri-Planesの資源効率を向上させる新しい平面アーキテクチャであるFused-Planesを紹介する。
大規模なシーンの集合を学習するために、我々はそれを2つのサブセットに分割し、以下のように操作する。
(i)圧縮モデルと共同でシーンの最初のサブセットを訓練する。
(ii)その圧縮モデルを用いて残りのシーンを学習する。
この圧縮モデルは、Fused-Planesが学習される3D対応の潜在空間で構成され、レンダリングの解像度を低減し、シーン間の共有構造によりシーン表現の複雑さを低減させる。
Fused-Planesはマルチシーンの逆グラフィックスにおいて競合するリソースコストを示し、Tri-Planesのレンダリング品質を保ち、広く好まれる平面構造を維持している。
私たちのコードベースはオープンソースとして公開されています。
私たちのプロジェクトページはhttps://fused-planes.github.io で参照できます。
関連論文リスト
- PlanarSplatting: Accurate Planar Surface Reconstruction in 3 Minutes [32.00236197233923]
PlanarSplattingはマルチビュー屋内画像のための超高速かつ高精度な表面再構成手法である。
PlanarSplattingは3分で室内のシーンを再構築し、幾何学的精度は大幅に向上した。
論文 参考訳(メタデータ) (2024-12-04T16:38:07Z) - MonoPlane: Exploiting Monocular Geometric Cues for Generalizable 3D Plane Reconstruction [37.481945507799594]
本稿では,MonoPlaneという汎用的な3次元平面検出・再構成フレームワークを提案する。
まず、大規模な事前学習ニューラルネットワークを用いて、1つの画像から深度と表面の正常値を得る。
これらの特異な幾何学的手がかりを近接誘導RANSACフレームワークに組み込んで各平面インスタンスに順次適合させる。
論文 参考訳(メタデータ) (2024-11-02T12:15:29Z) - LT3SD: Latent Trees for 3D Scene Diffusion [71.91446143124648]
本稿では,大規模3次元シーン生成のための新しい潜時拡散モデルLT3SDを提案する。
大規模かつ高品質な非条件3Dシーン生成におけるLT3SDの有効性とメリットを実証する。
論文 参考訳(メタデータ) (2024-09-12T16:55:51Z) - SCARF: Scalable Continual Learning Framework for Memory-efficient Multiple Neural Radiance Fields [9.606992888590757]
我々は,多層パーセプトロンを用いてシーンの密度と放射場を暗黙の関数としてモデル化するニューラルレージアンス場(NeRF)を構築した。
本研究では, 既往のシーンの放射界知識を新しいモデルに転送するための, 不確実な表面知識蒸留戦略を提案する。
実験の結果,提案手法はNeRF-Synthetic, LLFF, TanksAndTemplesデータセット上での連続学習NeRFの最先端のレンダリング品質を実現する。
論文 参考訳(メタデータ) (2024-09-06T03:36:12Z) - DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - VastGaussian: Vast 3D Gaussians for Large Scene Reconstruction [59.40711222096875]
VastGaussianは3次元ガウススティングに基づく大規模シーンにおける高品質な再構成とリアルタイムレンダリングのための最初の方法である。
提案手法は既存のNeRF手法より優れており,複数の大規模シーンデータセットの最先端結果が得られる。
論文 参考訳(メタデータ) (2024-02-27T11:40:50Z) - Disentangled 3D Scene Generation with Layout Learning [109.03233745767062]
本稿では,コンポーネントオブジェクトに絡み合った3Dシーンを生成する手法を提案する。
私たちの重要な洞察は、オブジェクトは空間的に再構成された場合、同じシーンの有効な構成を生成する3Dシーンの一部を見つけることで発見できるということです。
単純さにもかかわらず、我々のアプローチは個々のオブジェクトに3Dシーンを生成することに成功している。
論文 参考訳(メタデータ) (2024-02-26T18:54:15Z) - BirdNeRF: Fast Neural Reconstruction of Large-Scale Scenes From Aerial
Imagery [3.4956406636452626]
本研究では,空中画像を用いた大規模シーンの再構成に特化して設計されたNeRF(Neural Radiance Fields)の適応版であるBirdNeRFを紹介する。
本稿では,大規模な空中画像集合を複数小集合に分解し,空間分解アルゴリズムを提案する。
我々は、既存のデータセットと、独自のドローン映像に対するアプローチを評価し、従来のフォトグラムソフトウェアよりも10倍、最先端の大規模NeRFソリューションよりも50倍の再現速度を向上した。
論文 参考訳(メタデータ) (2024-02-07T03:18:34Z) - BlockFusion: Expandable 3D Scene Generation using Latent Tri-plane Extrapolation [51.030773085422034]
BlockFusionは拡散ベースのモデルで、3Dシーンを単位ブロックとして生成し、シーンを拡張するためにシームレスに新しいブロックを組み込む。
シーン要素の配置と配置を制御するために2次元レイアウトコンディショニング機構を使用する。
実験結果から、BlockFusionは多様な、幾何学的に整合性があり、拘束力のない大きな3Dシーンを生成可能であることが示唆された。
論文 参考訳(メタデータ) (2024-01-30T14:34:19Z) - Convolutional Occupancy Models for Dense Packing of Complex, Novel
Objects [75.54599721349037]
実世界における密包装のための既成の計画手法と容易に組み合わせることができる完全畳み込み形状完備モデルF-CONを提案する。
シミュレーションデータセットであるCOB-3D-v2もリリースしています。
最後に、F-CONと現実世界のピック・アンド・プレイス・システムを備え、散らばったシーンで複雑で見えない物体を密集したパッキングを実演する。
論文 参考訳(メタデータ) (2023-07-31T19:08:16Z) - Adaptive Voronoi NeRFs [9.973103531980838]
Neural Radiance Fieldsは、登録された画像のセットから3Dシーンを表現することを学ぶ。
ボロノイ図形の階層構造がシーン分割に適した選択であることを示す。
それぞれのVoronoiセルに独自のNeRFを組み込むことで,シーン表現を迅速に学習することができる。
論文 参考訳(メタデータ) (2023-03-28T14:16:08Z) - K-Planes: Explicit Radiance Fields in Space, Time, and Appearance [32.78595254330191]
任意の次元の放射場に対するホワイトボックスモデルであるk平面を導入する。
我々のモデルは、D次元のシーンを表現するためにd choose 2平面を使用し、静的なシーンからダイナミックなシーンへシームレスな方法を提供します。
合成され、リアルで、静的で、動的で、固定され、様々な外観シーンにおいて、k面は競争力があり、しばしば最先端の復元忠実さをもたらす。
論文 参考訳(メタデータ) (2023-01-24T18:59:08Z) - HexPlane: A Fast Representation for Dynamic Scenes [18.276921637560445]
動的3Dシーンは、6つの学習された特徴の平面で明示的に表現できることを示し、HexPlaneと呼ばれるエレガントなソリューションを生み出します。
HexPlaneは、高効率な各平面から抽出されたベクトルを融合させることにより、時空の点の特徴を計算する。
論文 参考訳(メタデータ) (2023-01-23T18:59:25Z) - AligNeRF: High-Fidelity Neural Radiance Fields via Alignment-Aware
Training [100.33713282611448]
我々は、高分解能データによるNeRFのトレーニングに関する最初のパイロット研究を行う。
本稿では,多層パーセプトロンと畳み込み層との結合を含む,対応する解を提案する。
私たちのアプローチは、明らかなトレーニング/テストコストを導入することなく、ほぼ無償です。
論文 参考訳(メタデータ) (2022-11-17T17:22:28Z) - Compressible-composable NeRF via Rank-residual Decomposition [21.92736190195887]
ニューラル・ラジアンス・フィールド(NeRF)は、3Dオブジェクトやシーンをリアルにレンダリングするための魅力的な方法として登場した。
本稿では,モデルの効率的かつ便利な操作を可能にするニューラル表現を提案する。
提案手法は,圧縮と合成の余分な能力を実現しつつ,最先端の手法に匹敵するレンダリング品質を実現することができる。
論文 参考訳(メタデータ) (2022-05-30T06:18:59Z) - Neural 3D Scene Reconstruction with the Manhattan-world Assumption [58.90559966227361]
本稿では,多視点画像から3次元屋内シーンを再構築する課題について述べる。
平面的制約は、最近の暗黙の神経表現に基づく再構成手法に便利に組み込むことができる。
提案手法は, 従来の手法よりも3次元再構成品質に優れていた。
論文 参考訳(メタデータ) (2022-05-05T17:59:55Z) - Frame-wise Action Representations for Long Videos via Sequence
Contrastive Learning [44.412145665354736]
本稿では,フレームワイドな行動表現を学習するための,新しいコントラッシブな行動表現学習フレームワークを提案する。
自己教師型学習の最近の進歩に触発されて,2つの相関する視点に適用した新しいシーケンス・コントラッシブ・ロス(SCL)を提案する。
提案手法は,映像アライメントや細かなフレーム検索作業において,優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-28T17:59:54Z) - StEP: Style-based Encoder Pre-training for Multi-modal Image Synthesis [68.3787368024951]
マルチモーダルイメージ・ツー・イメージ(I2I)翻訳のための新しいアプローチを提案する。
我々は、出力領域の可変性をモデル化する潜伏埋め込みをジェネレータと共同で学習する。
具体的には、新しいプロキシタスクを用いて汎用的なスタイルエンコーダを事前訓練し、任意のドメインから低次元のスタイル潜在空間への画像の埋め込みを学習する。
論文 参考訳(メタデータ) (2021-04-14T19:58:24Z) - IBRNet: Learning Multi-View Image-Based Rendering [67.15887251196894]
本稿では,近接ビューの疎集合を補間することにより,複雑なシーンの新しいビューを合成する手法を提案する。
レンダリング時にソースビューを描画することで、画像ベースのレンダリングに関する古典的な作業に戻ります。
論文 参考訳(メタデータ) (2021-02-25T18:56:21Z) - 3D Sketch-aware Semantic Scene Completion via Semi-supervised Structure
Prior [50.73148041205675]
セマンティック・シーン・コンプリート(SSC)タスクの目標は、単一視点で観察することで、ボリューム占有率とシーン内のオブジェクトの意味ラベルの完全な3Dボクセル表現を同時に予測することである。
低解像度のボクセル表現で深度情報を埋め込む新しい幾何学的手法を提案する。
提案手法は,SSCフレームワークからの深度特徴学習よりも有効である。
論文 参考訳(メタデータ) (2020-03-31T09:33:46Z) - Planar Prior Assisted PatchMatch Multi-View Stereo [32.41293572426403]
3Dモデルの完全性は、マルチビューステレオでは依然として難しい問題である。
平面モデルは低テクスチャ領域の深さ推定に有利である。
PatchMatchマルチビューステレオは、サンプリングおよび伝搬方式において非常に効率的である。
論文 参考訳(メタデータ) (2019-12-26T01:34:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。