論文の概要: REVIVE 3D: Refinement via Encoded Voluminous Inflated prior for Volume Enhancement
- arxiv url: http://arxiv.org/abs/2604.27504v1
- Date: Thu, 30 Apr 2026 06:54:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.963608
- Title: REVIVE 3D: Refinement via Encoded Voluminous Inflated prior for Volume Enhancement
- Title(参考訳): ReVIVE 3D: ボリューム向上のためのエンコードされたアルミニウムインフレーションによるリファインメント
- Authors: Hankyeol Lee, Wooyeol Baek, Seongdo Kim, Jongyoo Kim,
- Abstract要約: REVIVE 3Dは平らな画像から光沢のある3Dアセットを生成するための2段階のプラグアンドプレイパイプラインである。
ReVIVE 3Dは、挑戦的なフラットな画像データセット上で最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 3.2598792807500154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent generative models have shown strong performance in generating diverse 3D assets from 2D images, a fundamental research topic in computer vision and graphics. However, these models still struggle to generate voluminous 3D assets when the input is a flat image that provides limited 3D cues. We introduce REVIVE 3D, a two-stage, plug-and-play pipeline for generating voluminous 3D assets from flat images. In Stage 1, we construct an Inflated Prior by inflating the foreground silhouette to recover global volume and superimposing part-aware details to capture local structure. In Stage 2, 3D Latent Refinement injects Gaussian noise into the Inflated Prior's latent and then denoises it, using the prior's geometric cues to leverage the backbone's pretrained 3D knowledge. Furthermore, our framework supports image-conditioned 3D editing. To quantify volume and surface flatness, we propose Compactness and Normal Anisotropy. We validate Compactness and Normal Anisotropy through a user study, showing that these metrics align with human perception of volume and quality. We show that REVIVE 3D achieves state-of-the-art performance on a challenging flat image dataset, based on extensive qualitative and quantitative evaluations.
- Abstract(参考訳): 最近の生成モデルは、コンピュータビジョンとグラフィックスの基本的な研究テーマである2D画像から多様な3Dアセットを生成する上で、強力な性能を示している。
しかし、これらのモデルでは、入力がフラットな画像であり、限られた3Dキューを提供する場合に、明るい3Dアセットを生成するのに苦戦している。
平面画像から高輝度な3Dアセットを生成するための2段階のプラグアンドプレイパイプラインであるREVIVE 3Dを紹介する。
ステージ1では,前景シルエットを膨らませてグローバルボリュームを回復し,部分認識の詳細を重畳して局所構造を捉えることで,インフレドプリエントを構築する。
ステージ2では、3Dラテント・リファインメント (Latent Refinement) がインフレーションド・プリエントの潜伏音にガウスノイズを注入し、前者の幾何学的手がかりを用いて、バックボーンの事前訓練された3D知識を活用する。
さらに,このフレームワークは画像条件付き3D編集をサポートする。
体積と表面平坦性を定量化するために,コンパクト性と正規異方性を提案する。
本研究では, 音量と音質の人間の知覚と一致していることを示すとともに, 音質と音質の非等方性をユーザスタディにより検証した。
この結果から,REVIVE 3Dは,定性的,定量的な評価に基づいて,挑戦的な平坦な画像データセット上で最先端の性能を達成できることが示唆された。
関連論文リスト
- Extend3D: Town-Scale 3D Generation [31.052455723067684]
1枚の画像から3Dシーンを生成するためのトレーニング不要パイプラインであるExtended3Dを提案する。
拡張潜在空間を重なり合うパッチに分割することにより、各パッチにオブジェクト中心の3D生成モデルを適用し、各ステップで結合する。
3次元リファインメントにおける3次元構造の不完全さをノイズとして扱うことにより,低騒音という概念による3次元合成が可能となる。
論文 参考訳(メタデータ) (2026-03-31T07:55:04Z) - Constructing a 3D Scene from a Single Image [31.11317559252235]
SceneFuse-3Dは、単一のトップダウンビューからコヒーレントな3Dシーンを合成するために設計されたトレーニング不要のフレームワークである。
入力画像を重なり合う領域に分解し、事前訓練された3Dオブジェクトジェネレータを用いてそれぞれを生成する。
このモジュラー設計により、3次元の監督や微調整を必要とせず、解像度のボトルネックを克服し、空間構造を維持できる。
論文 参考訳(メタデータ) (2025-05-21T17:10:47Z) - DINO in the Room: Leveraging 2D Foundation Models for 3D Segmentation [51.43837087865105]
大規模な画像データセットに基づいてトレーニングされた視覚基礎モデル(VFM)は、非常に高度な2D視覚認識を備えた高品質な機能を提供する。
3D画像と3Dポイントクラウドデータセットの共通利用にもかかわらず、彼らの3Dビジョンのポテンシャルは依然としてほとんど未解決のままである。
2Dファンデーションモデルの特徴を抽出し,それを3Dに投影し,最終的に3Dポイントクラウドセグメンテーションモデルに注入する,シンプルで効果的なアプローチであるDITRを導入する。
論文 参考訳(メタデータ) (2025-03-24T17:59:11Z) - DSplats: 3D Generation by Denoising Splats-Based Multiview Diffusion Models [67.50989119438508]
本稿では,ガウスをベースとしたレコンストラクタを用いて,リアルな3Dアセットを生成することで,マルチビュー画像を直接認識するDSplatを紹介した。
実験の結果,DSplatsは高品質で空間的に一貫した出力を生成できるだけでなく,単一画像から3次元再構成への新たな標準も設定できることがわかった。
論文 参考訳(メタデータ) (2024-12-11T07:32:17Z) - ScalingGaussian: Enhancing 3D Content Creation with Generative Gaussian Splatting [30.99112626706754]
高品質な3Dアセットの作成は、デジタル遺産、エンターテイメント、ロボット工学の応用において最重要である。
伝統的に、このプロセスはモデリングに熟練した専門家と専門的なソフトウェアを必要とする。
本稿では,3Dテクスチャを効率的に生成する新しい3Dコンテンツ作成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-26T18:26:01Z) - LAM3D: Large Image-Point-Cloud Alignment Model for 3D Reconstruction from Single Image [64.94932577552458]
大規模再構成モデルは、単一または複数入力画像から自動3Dコンテンツ生成の領域において大きな進歩を遂げている。
彼らの成功にもかかわらず、これらのモデルはしばしば幾何学的不正確な3Dメッシュを生成し、画像データからのみ3D形状を推論する固有の課題から生まれた。
生成した3Dメッシュの忠実度を高めるために3Dポイントクラウドデータを利用する新しいフレームワークであるLarge Image and Point Cloud Alignment Model (LAM3D)を導入する。
論文 参考訳(メタデータ) (2024-05-24T15:09:12Z) - Magic-Boost: Boost 3D Generation with Multi-View Conditioned Diffusion [101.15628083270224]
本稿では,高忠実度新鮮映像を合成する多視点拡散モデルを提案する。
次に,得られた粗い結果を精査するための厳密なガイダンスを提供するために,新しい反復更新戦略を導入する。
実験の結果、Magic-Boostは粗いインプットを大幅に強化し、リッチな幾何学的およびテクスチュラルな詳細を持つ高品質な3Dアセットを生成する。
論文 参考訳(メタデータ) (2024-04-09T16:20:03Z) - Compress3D: a Compressed Latent Space for 3D Generation from a Single Image [27.53099431097921]
トリプレーンオートエンコーダは3次元モデルをコンパクトな3次元ラテント空間に符号化し、3次元幾何情報とテクスチャ情報の両方を圧縮する。
本稿では,低解像度の潜在表現を用いて高解像度の3D特徴量から特徴を問合せする3D対応のクロスアテンション機構を提案する。
われわれのアプローチでは、1つのA100 GPU上で7秒で高品質な3Dアセットを生成できる。
論文 参考訳(メタデータ) (2024-03-20T11:51:04Z) - What You See is What You GAN: Rendering Every Pixel for High-Fidelity
Geometry in 3D GANs [82.3936309001633]
3D-aware Generative Adversarial Networks (GANs) は,マルチビュー一貫性画像と3Dジオメトリを生成する学習において,顕著な進歩を見せている。
しかし、ボリュームレンダリングにおける高密度サンプリングの大幅なメモリと計算コストにより、3D GANはパッチベースのトレーニングを採用するか、後処理の2Dスーパーレゾリューションで低解像度レンダリングを採用することを余儀なくされた。
ニューラルボリュームレンダリングをネイティブ2次元画像の高解像度化に拡張する手法を提案する。
論文 参考訳(メタデータ) (2024-01-04T18:50:38Z) - ARTIC3D: Learning Robust Articulated 3D Shapes from Noisy Web Image
Collections [71.46546520120162]
単眼画像から動物体のような3D関節形状を推定することは、本質的に困難である。
本稿では,スパース画像コレクションから各物体の形状を再構築する自己教師型フレームワークARTIC3Dを提案する。
我々は、剛性部分変換の下で、描画された形状とテクスチャを微調整することで、現実的なアニメーションを作成する。
論文 参考訳(メタデータ) (2023-06-07T17:47:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。