Fugu-MT 論文翻訳(概要): DIG3D: Marrying Gaussian Splatting with Deformable Transformer for Single Image 3D Reconstruction

論文の概要: DIG3D: Marrying Gaussian Splatting with Deformable Transformer for Single Image 3D Reconstruction

arxiv url: http://arxiv.org/abs/2404.16323v1
Date: Thu, 25 Apr 2024 04:18:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-26 14:48:28.166859
Title: DIG3D: Marrying Gaussian Splatting with Deformable Transformer for Single Image 3D Reconstruction
Title（参考訳）: DIG3D:1次元画像再構成のための変形可能な変圧器を用いたガウス平滑化
Authors: Jiamin Wu, Kenkun Liu, Han Gao, Xiaoke Jiang, Lei Zhang,
Abstract要約: 本稿では,3次元オブジェクト再構成と新しいビュー合成のためのDIG3Dという新しい手法を提案する。提案手法は,デコーダの3次元ガウスアンを生成するエンコーダ・デコーダ・フレームワークを用いて,エンコーダから奥行き認識画像の特徴を誘導する。提案手法をShapeNet SRNデータセット上で評価し,車内および椅子内におけるPSNRは24.21と24.98であった。
参考スコア（独自算出の注目度）: 12.408610403423559
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we study the problem of 3D reconstruction from a single-view RGB image and propose a novel approach called DIG3D for 3D object reconstruction and novel view synthesis. Our method utilizes an encoder-decoder framework which generates 3D Gaussians in decoder with the guidance of depth-aware image features from encoder. In particular, we introduce the use of deformable transformer, allowing efficient and effective decoding through 3D reference point and multi-layer refinement adaptations. By harnessing the benefits of 3D Gaussians, our approach offers an efficient and accurate solution for 3D reconstruction from single-view images. We evaluate our method on the ShapeNet SRN dataset, getting PSNR of 24.21 and 24.98 in car and chair dataset, respectively. The result outperforming the recent method by around 2.25%, demonstrating the effectiveness of our method in achieving superior results.
Abstract（参考訳）: 本稿では,1次元RGB画像からの3次元再構成の問題点を考察し,DIG3Dと呼ばれる新しい3次元オブジェクト再構成と新しいビュー合成手法を提案する。提案手法は,デコーダの3次元ガウスアンを生成するエンコーダ・デコーダ・フレームワークを用いて,エンコーダから奥行き認識画像の特徴を誘導する。特に、変形可能な変換器を導入し、3次元参照点と多層精細化適応による効率的かつ効果的な復号化を可能にする。提案手法は,3次元ガウスの利点を生かして,一視点画像から3次元再構成を行うための効率的かつ正確な手法を提供する。提案手法をShapeNet SRNデータセット上で評価し,車内および椅子内におけるPSNRは24.21と24.98であった。その結果,近年の手法を約2.25%向上させ,優れた結果を得る上での手法の有効性を実証した。

関連論文リスト

Textured Gaussians for Enhanced 3D Scene Appearance Modeling [58.134905268540436]
3D Gaussian Splatting (3DGS)は最先端の3D再構成およびレンダリング技術として登場した。本稿では,それぞれにα(A), RGB, RGBAテクスチャマップを付加した一般化されたガウスの外観表現を提案する。類似または少ないガウス数を用いて,既存の手法に比べて画質が向上したことを示す。
論文参考訳（メタデータ） (2024-11-27T18:59:59Z)
PixelGaussian: Generalizable 3D Gaussian Reconstruction from Arbitrary Views [116.10577967146762]
PixelGaussianは、任意の視点から一般化可能な3Dガウス再構成を学習するための効率的なフレームワークである。提案手法は,様々な視点によく一般化した最先端性能を実現する。
論文参考訳（メタデータ） (2024-10-24T17:59:58Z)
UniG: Modelling Unitary 3D Gaussians for View-consistent 3D Reconstruction [20.089890859122168]
ビュー一貫性を持つ3次元再構成と新しいビュー合成モデルUniGを提案する。 UniGはスパース画像から3Dガウスの高忠実度表現を生成する。
論文参考訳（メタデータ） (2024-10-17T03:48:02Z)
GSD: View-Guided Gaussian Splatting Diffusion for 3D Reconstruction [52.04103235260539]
単一視点からの3次元オブジェクト再構成のためのガウススプティング表現に基づく拡散モデル手法を提案する。モデルはGS楕円体の集合で表される3Dオブジェクトを生成することを学習する。最終的な再構成されたオブジェクトは、高品質な3D構造とテクスチャを持ち、任意のビューで効率的にレンダリングできる。
論文参考訳（メタデータ） (2024-07-05T03:43:08Z)
Effective Rank Analysis and Regularization for Enhanced 3D Gaussian Splatting [33.01987451251659]
3D Gaussian Splatting(3DGS)は、高品質な3D再構成によるリアルタイムレンダリングが可能な有望な技術として登場した。その可能性にもかかわらず、3DGSは針状アーティファクト、準最適ジオメトリー、不正確な正常といった課題に遭遇する。正規化として有効ランクを導入し、ガウスの構造を制約する。
論文参考訳（メタデータ） (2024-06-17T15:51:59Z)
PUP 3D-GS: Principled Uncertainty Pruning for 3D Gaussian Splatting [59.277480452459315]
本研究では,視覚的忠実度と前景の細部を高い圧縮比で保持する原理的感度プルーニングスコアを提案する。また,トレーニングパイプラインを変更することなく,事前訓練した任意の3D-GSモデルに適用可能な複数ラウンドプルーファインパイプラインを提案する。
論文参考訳（メタデータ） (2024-06-14T17:53:55Z)
GSGAN: Adversarial Learning for Hierarchical Generation of 3D Gaussian Splats [20.833116566243408]
本稿では,Gaussianを3D GANの3次元表現として利用し,その効率的かつ明示的な特徴を活用する。生成したガウスの位置とスケールを効果的に正規化する階層的多スケールガウス表現を持つジェネレータアーキテクチャを導入する。実験結果から,最先端の3D一貫したGANと比較して,レンダリング速度(x100)が大幅に向上することが示された。
論文参考訳（メタデータ） (2024-06-05T05:52:20Z)
GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction [70.65250036489128]
3Dのセマンティック占有予測は,周囲のシーンの3Dの微細な形状とセマンティックスを得ることを目的としている。本稿では,3Dシーンを3Dセマンティック・ガウシアンで表現するオブジェクト中心表現を提案する。 GaussianFormerは17.8%から24.8%のメモリ消費しか持たない最先端のメソッドで同等のパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-05-27T17:59:51Z)
GRM: Large Gaussian Reconstruction Model for Efficient 3D Reconstruction and Generation [85.15374487533643]
約0.1秒でスパースビュー画像から3Dアセットを復元できる大規模再構成機であるGRMを紹介する。 GRMは、マルチビュー情報を効率的に組み込んだフィードフォワードトランスフォーマーベースのモデルである。また,既存の多視点拡散モデルと統合することにより,テキスト・ツー・3Dや画像・ツー・3Dといった生成タスクにおけるGRMの可能性を示す。
論文参考訳（メタデータ） (2024-03-21T17:59:34Z)
GaussianObject: High-Quality 3D Object Reconstruction from Four Views with Gaussian Splatting [82.29476781526752]
高度にスパースな視点から3Dオブジェクトを再構成・レンダリングすることは、3Dビジョン技術の応用を促進する上で非常に重要である。 GaussianObjectは、Gaussian splattingで3Dオブジェクトを表現してレンダリングするフレームワークで、4つの入力イメージだけで高いレンダリング品質を実現する。 GaussianObjectは、MipNeRF360、OmniObject3D、OpenIllumination、および私たちが収集した未提示画像など、いくつかの挑戦的なデータセットで評価されている。
論文参考訳（メタデータ） (2024-02-15T18:42:33Z)
IM-3D: Iterative Multiview Diffusion and Reconstruction for High-Quality 3D Generation [96.32684334038278]
本稿では,テキスト・ツー・3Dモデルの設計空間について検討する。画像生成装置の代わりに映像を考慮し、マルチビュー生成を大幅に改善する。 IM-3Dは,2次元ジェネレータネットワーク10-100xの評価回数を削減する。
論文参考訳（メタデータ） (2024-02-13T18:59:51Z)
AGG: Amortized Generative 3D Gaussians for Single Image to 3D [108.38567665695027]
Amortized Generative 3D Gaussian framework (AGG) を導入する。 AGGは、共同最適化のための3Dガウス位置およびその他の外観特性の生成を分解する。本稿では,まず3次元データの粗い表現を生成し,後に3次元ガウス超解像モジュールでアップサンプリングするカスケードパイプラインを提案する。
論文参考訳（メタデータ） (2024-01-08T18:56:33Z)
Triplane Meets Gaussian Splatting: Fast and Generalizable Single-View 3D Reconstruction with Transformers [37.14235383028582]
本稿では,フィードフォワード推論を用いて,単一画像から3次元モデルを効率よく生成する,一視点再構成のための新しい手法を提案する。提案手法では,2つのトランスフォーマーネットワーク,すなわちポイントデコーダとトリプレーンデコーダを用いて,ハイブリッドトリプレーン・ガウス中間表現を用いて3次元オブジェクトを再構成する。
論文参考訳（メタデータ） (2023-12-14T17:18:34Z)
TriPlaneNet: An Encoder for EG3D Inversion [1.9567015559455132]
NeRFをベースとしたGANは、人間の頭部の高分解能かつ高忠実な生成モデリングのための多くのアプローチを導入している。 2D GANインバージョンのための普遍的最適化に基づく手法の成功にもかかわらず、3D GANに適用された手法は、結果を新しい視点に外挿することができないかもしれない。本稿では,EG3D生成モデルに提示された3面表現を直接利用することにより,両者のギャップを埋める高速な手法を提案する。
論文参考訳（メタデータ） (2023-03-23T17:56:20Z)
NeRF-GAN Distillation for Efficient 3D-Aware Generation with Convolutions [97.27105725738016]
GAN(Generative Adversarial Networks)のようなニューラルラジアンスフィールド(NeRF)と生成モデルの統合は、単一ビュー画像から3D認識生成を変換した。提案手法は,ポーズ条件付き畳み込みネットワークにおいて,事前学習したNeRF-GANの有界遅延空間を再利用し,基礎となる3次元表現に対応する3D一貫性画像を直接生成する手法である。
論文参考訳（メタデータ） (2023-03-22T18:59:48Z)
Make Encoder Great Again in 3D GAN Inversion through Geometry and Occlusion-Aware Encoding [25.86312557482366]
3D GANインバージョンは、単一の画像入力から高い再構成忠実度と合理的な3D幾何を同時に達成することを目的としている。本稿では,最も広く使用されている3D GANモデルの1つであるEG3Dに基づく,新しいエンコーダベースの逆変換フレームワークを提案する。提案手法は,最大500倍高速に動作しながら,最適化手法に匹敵する印象的な結果が得られる。
論文参考訳（メタデータ） (2023-03-22T05:51:53Z)
High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文参考訳（メタデータ） (2022-11-28T18:59:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。