Fugu-MT 論文翻訳(概要): Omni-Scene: Omni-Gaussian Representation for Ego-Centric Sparse-View Scene Reconstruction

論文の概要: Omni-Scene: Omni-Gaussian Representation for Ego-Centric Sparse-View Scene Reconstruction

arxiv url: http://arxiv.org/abs/2412.06273v1
Date: Mon, 09 Dec 2024 07:48:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-10 23:11:44.270934
Title: Omni-Scene: Omni-Gaussian Representation for Ego-Centric Sparse-View Scene Reconstruction
Title（参考訳）: Omni-Scene:Omni-Gaussian Representation for Ego-Centric Sparse-View Scene Reconstruction
Authors: Dongxu Wei, Zhiqi Li, Peidong Liu,
Abstract要約: 自律運転のシナリオでは、より実践的なパラダイムはエゴ中心の再構築であり、最小のクロスビューオーバーラップが特徴である。本稿では,異なる表現の詳細な分析を行い,ネットワーク設計に適したOmni-Gaussian表現を提案する。実験の結果,エゴ中心の再構築において,この手法は最先端の手法であるピクセルSplatやMVSplatをはるかに上回ることがわかった。
参考スコア（独自算出の注目度）: 9.116550622312362
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Prior works employing pixel-based Gaussian representation have demonstrated efficacy in feed-forward sparse-view reconstruction. However, such representation necessitates cross-view overlap for accurate depth estimation, and is challenged by object occlusions and frustum truncations. As a result, these methods require scene-centric data acquisition to maintain cross-view overlap and complete scene visibility to circumvent occlusions and truncations, which limits their applicability to scene-centric reconstruction. In contrast, in autonomous driving scenarios, a more practical paradigm is ego-centric reconstruction, which is characterized by minimal cross-view overlap and frequent occlusions and truncations. The limitations of pixel-based representation thus hinder the utility of prior works in this task. In light of this, this paper conducts an in-depth analysis of different representations, and introduces Omni-Gaussian representation with tailored network design to complement their strengths and mitigate their drawbacks. Experiments show that our method significantly surpasses state-of-the-art methods, pixelSplat and MVSplat, in ego-centric reconstruction, and achieves comparable performance to prior works in scene-centric reconstruction. Furthermore, we extend our method with diffusion models, pioneering feed-forward multi-modal generation of 3D driving scenes.
Abstract（参考訳）: 画素に基づくガウス表現を用いた以前の研究は、フィードフォワードスパースビュー再構成に有効であることを示した。しかし、そのような表現は正確な深度推定のためにクロスビューオーバーラップを必要とし、オブジェクトの閉塞やフラストレーションの切り離しによって挑戦される。その結果、シーン中心のデータ取得は、クロスビューオーバーラップと完全なシーンの可視性を維持するために必要となり、シーン中心の再構築に適用性を制限することができる。対照的に、自律運転のシナリオでは、より実践的なパラダイムはエゴ中心の再構築であり、最小のクロスビューオーバーラップと頻繁なオクルージョンとトランケーションが特徴である。ピクセルベースの表現の限界は、このタスクにおける先行処理の実用性を妨げている。そこで本研究では,異なる表現の詳細な解析を行い,その強みを補完し,欠点を軽減するために,ネットワーク設計をカスタマイズしたOmni-Gaussian表現を提案する。実験により,エゴ中心の再現において,この手法は最先端の手法であるピクセルSplatやMVSplatをはるかに上回り,シーン中心の再構成において従来の手法に匹敵する性能を発揮することが示された。さらに,本手法を拡散モデルにより拡張し,フィードフォワードによる3次元駆動シーンのマルチモーダル生成を開拓する。

関連論文リスト

SparseRecon: Neural Implicit Surface Reconstruction from Sparse Views with Feature and Depth Consistencies [48.99420012507374]
SparseReconは、ボリュームレンダリングに基づく特徴整合性と不確実性誘導深度制約を有するスパースビューのニューラル暗黙的再構成手法である。提案手法は,スパースビュー入力による高品質な幾何を生成できる最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2025-08-01T06:51:32Z)
RemixFusion: Residual-based Mixed Representation for Large-scale Online RGB-D Reconstruction [18.4683556884268]
RemixFusionはシーン再構成とカメラポーズ推定のための新しい残差ベース混合表現である。特に,明示的な粗いTSDFグリッドと暗黙的なニューラルモジュールからなる残差ベースのマップ表現を提案する。我々の手法は、明示的あるいは暗黙的な表現に基づくものを含む、最先端のすべてのものを上回る。
論文参考訳（メタデータ） (2025-07-23T15:27:09Z)
Intern-GS: Vision Model Guided Sparse-View 3D Gaussian Splatting [95.61137026932062]
Intern-GSはスパースビューガウススプラッティングのプロセスを強化する新しいアプローチである。 Intern-GSは多様なデータセットにまたがって最先端のレンダリング品質を実現する。
論文参考訳（メタデータ） (2025-05-27T05:17:49Z)
Decompositional Neural Scene Reconstruction with Generative Diffusion Prior [64.71091831762214]
完全な形状と詳細なテクスチャを持つ3次元シーンの分解的再構成は、下流の応用に興味深い。近年のアプローチでは、この問題に対処するために意味的あるいは幾何学的正則化が取り入れられているが、制約の少ない領域では著しく劣化している。本稿では,SDS(Score Distillation Sampling)の形で拡散先行値を用いたDP-Reconを提案し,新しい視点下で個々の物体の神経表現を最適化する。
論文参考訳（メタデータ） (2025-03-19T02:11:31Z)
Few-Shot Multi-Human Neural Rendering Using Geometry Constraints [8.819403814092865]
本稿では,複数の人物によるシーンの形状と放射率を復元する手法を提案する。暗黙の神経表現を用いた既存のアプローチは、正確な幾何学と外観をもたらす印象的な結果を得た。本稿では,その課題に対処するニューラル暗黙的再構築手法を提案する。
論文参考訳（メタデータ） (2025-02-11T00:10:58Z)
Re-Visible Dual-Domain Self-Supervised Deep Unfolding Network for MRI Reconstruction [48.30341580103962]
本稿では、これらの問題に対処するために、新しい再視覚的二重ドメイン自己教師型深層展開ネットワークを提案する。エンド・ツー・エンドの再構築を実現するために,シャンブルとポック・プロキシ・ポイント・アルゴリズム(DUN-CP-PPA)に基づく深層展開ネットワークを設計する。高速MRIおよびIXIデータセットを用いて行った実験により,本手法は再建性能において最先端の手法よりも有意に優れていることが示された。
論文参考訳（メタデータ） (2025-01-07T12:29:32Z)
PVP-Recon: Progressive View Planning via Warping Consistency for Sparse-View Surface Reconstruction [49.7580491592023]
PVP-Recon, 新規かつ効果的なスパースビュー表面再構成法を提案する。 PVP-Reconは3つのビューで初期表面の再構築を開始し、徐々に新しいビューを追加する。このプログレッシブビュー計画の進捗は、神経SDFベースの再構築モジュールによってインターリーブされる。
論文参考訳（メタデータ） (2024-09-09T10:06:34Z)
Pixel-Aligned Multi-View Generation with Depth Guided Decoder [86.1813201212539]
画素レベルの画像・マルチビュー生成のための新しい手法を提案する。従来の作業とは異なり、潜伏映像拡散モデルのVAEデコーダにマルチビュー画像にアテンション層を組み込む。本モデルにより,マルチビュー画像間の画素アライメントが向上する。
論文参考訳（メタデータ） (2024-08-26T04:56:41Z)
VortSDF: 3D Modeling with Centroidal Voronoi Tesselation on Signed Distance Field [5.573454319150408]
四面体グリッド上での3次元形状特性を推定するために,明示的なSDFフィールドと浅いカラーネットワークを組み合わせた体積最適化フレームワークを提案する。 Chamfer統計による実験結果は、オブジェクト、オープンシーン、人間などの様々なシナリオにおいて、前例のない復元品質でこのアプローチを検証する。
論文参考訳（メタデータ） (2024-07-29T09:46:39Z)
Towards Cross-View-Consistent Self-Supervised Surround Depth Estimation [9.569646683579899]
連続画像からの自己監督下周深度推定は経済的な代替手段を提供する。従来のSSSDE法では、画像間で情報を融合する異なるメカニズムが提案されているが、それらのいくつかは、クロスビュー制約を明示的に考慮している。本稿では,SSSDEのクロスビュー一貫性を高めるために,効率的で一貫したポーズ推定設計と2つの損失関数を提案する。
論文参考訳（メタデータ） (2024-07-04T16:29:05Z)
Object-level Scene Deocclusion [92.39886029550286]
オブジェクトレベルのシーン・デクルージョンのためのPArallel可視・コミュールト拡散フレームワークPACOを提案する。 PACOをトレーニングするために、500kサンプルの大規模なデータセットを作成し、自己教師付き学習を可能にします。 COCOAと様々な現実世界のシーンの実験では、PACOがシーンの排除に優れた能力を示し、芸術の状態をはるかに上回っている。
論文参考訳（メタデータ） (2024-06-11T20:34:10Z)
360 Layout Estimation via Orthogonal Planes Disentanglement and Multi-view Geometric Consistency Perception [56.84921040837699]
既存のパノラマ配置推定ソリューションは、垂直圧縮されたシーケンスから部屋の境界を復元し、不正確な結果をもたらす傾向にある。そこで本稿では,直交平面不整合ネットワーク(DOPNet)を提案し,あいまいな意味論を識別する。また,水平深度と比表現に適した教師なし適応手法を提案する。本手法は,単分子配置推定と多視点レイアウト推定の両タスクにおいて,他のSoTAモデルよりも優れる。
論文参考訳（メタデータ） (2023-12-26T12:16:03Z)
Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文参考訳（メタデータ） (2023-12-24T08:42:37Z)
HarmonicNeRF: Geometry-Informed Synthetic View Augmentation for 3D Scene Reconstruction in Driving Scenarios [2.949710700293865]
HarmonicNeRFは、屋外の自己監督型単分子シーン再構築のための新しいアプローチである。形状インフォームド合成ビューで入力空間を拡大することにより、NeRFの強度を生かし、表面再構成精度を高める。提案手法は,新しい深度ビューを合成し,シーンを再構築するための新しいベンチマークを確立し,既存の手法よりも優れていた。
論文参考訳（メタデータ） (2023-10-09T07:42:33Z)
Learning to Render Novel Views from Wide-Baseline Stereo Pairs [26.528667940013598]
本稿では,単一の広線ステレオ画像ペアのみを付与した新しいビュー合成手法を提案する。スパース観測による新しいビュー合成への既存のアプローチは、誤った3次元形状の復元によって失敗する。対象光線に対する画像特徴を組み立てるための,効率的な画像空間のエピポーラ線サンプリング手法を提案する。
論文参考訳（メタデータ） (2023-04-17T17:40:52Z)
Progressive Multi-view Human Mesh Recovery with Self-Supervision [68.60019434498703]
既存のソリューションは通常、新しい設定への一般化性能の低下に悩まされる。マルチビューヒューマンメッシュリカバリのためのシミュレーションに基づく新しいトレーニングパイプラインを提案する。
論文参考訳（メタデータ） (2022-12-10T06:28:29Z)
MonoSDF: Exploring Monocular Geometric Cues for Neural Implicit Surface Reconstruction [72.05649682685197]
最先端のニューラル暗黙法は、多くの入力ビューから単純なシーンの高品質な再構築を可能にする。これは主に、十分な制約を提供していないRGB再構築損失の固有の曖昧さによって引き起こされる。近年の単分子形状予測の分野での進歩に触発され, ニューラルな暗黙的表面再構成の改善にこれらの方法が役立つかを探究する。
論文参考訳（メタデータ） (2022-06-01T17:58:15Z)
RISP: Rendering-Invariant State Predictor with Differentiable Simulation and Rendering for Cross-Domain Parameter Estimation [110.4255414234771]
既存のソリューションでは、大量のトレーニングデータが必要か、未知のレンダリング設定への一般化性が欠如している。本稿では、ドメインのランダム化と微分可能なレンダリング勾配を併用してこの問題に対処する手法を提案する。提案手法は, 再構成誤差を大幅に低減し, 未知のレンダリング構成間の一般化性が向上する。
論文参考訳（メタデータ） (2022-05-11T17:59:51Z)
Self-Supervised Video Object Segmentation via Cutout Prediction and Tagging [117.73967303377381]
本稿では, 自己教師型ビデオオブジェクト(VOS)アプローチを提案する。本手法は,対象情報と背景情報の両方を考慮した識別学習損失の定式化に基づく。提案手法であるCT-VOSは, DAVIS-2017 と Youtube-VOS の2つの挑戦的なベンチマークにおいて,最先端の結果を達成している。
論文参考訳（メタデータ） (2022-04-22T17:53:27Z)
Weakly But Deeply Supervised Occlusion-Reasoned Parametric Layouts [87.370534321618]
複雑な道路シーンのRGBイメージをインプットとして単一の視点で捉えたエンドツーエンドのネットワークを提案し、パースペクティブ空間における閉塞性のあるレイアウトを創出する。私たちのメソッドで必要とされる唯一の人間のアノテーションは、より安価で入手しにくいパラメトリック属性です。私たちは、KITTIとNuScenesという2つの公開データセットのアプローチを検証し、人間の監督を大幅に低下させることで、最先端の結果を実現します。
論文参考訳（メタデータ） (2021-04-14T09:32:29Z)
Spatially Consistent Representation Learning [12.120041613482558]
本研究では,空間的に一貫した表現学習アルゴリズム(SCRL)を提案する。ランダムに切り抜かれた局所領域のコヒーレントな空間表現を作ろうとする新しい自己教師付き目的を考案する。ベンチマークデータセットを用いた下流のローカライゼーションタスクでは、提案したSCRLは大幅な性能改善を示す。
論文参考訳（メタデータ） (2021-03-10T15:23:45Z)
Monocular Real-Time Volumetric Performance Capture [28.481131687883256]
本稿では,モノクロ映像から実時間速度でボリューム・パフォーマンス・キャプチャとノベル・ビュー・レンダリングを行うための最初のアプローチを提案する。このシステムは,Pixel-Aligned Implicit Function (PIFu)を活用して,各フレームから完全にテクスチャ化された3次元人体を再構成する。また,オンラインハード・サンプル・マイニング(OHEM)技術を導入し,難題の稀な発生により,障害モードを効果的に抑制する手法を提案する。
論文参考訳（メタデータ） (2020-07-28T04:45:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。