FuguReport

3D-ReGen: A Unified 3D Geometry Regeneration Framework

著者 Geon Yeong Park, Roman Shapovalov, Rakesh Ranjan, Jong Chul Ye, Andrea Vedaldi, Thu Nguyen-Phuoc
所属 Meta / Korea Advanced Institute of Science and Technology
カテゴリ Method / 3D Reconstruction / Unified 3D geometry regeneration framework, Evaluation / Geometry Quality Assessment / Evaluation of geometric consistency and fine quality, Application / 3D Content Creation / Support for 3D expansion, reconstruction, and editing
ライセンス CC BY 4.0

Abstractの概要

3D-ReGenは、拡散モデルに基づく統一フレームワークであり、3Dの強化・再構成・編集といった複数のタスクを、低情報量の初期3D形状からオプションの画像ガイダンスを用いて高情報量の3D形状を予測する単一の「再生成」問題として定式化している。本フレームワークはVecSet潜在表現とDiffusion Transformer(DiT)を基盤とし、入力ジオメトリを同一のVecSet潜在空間にエンコードし、ゼロ初期化MLPと位置埋め込みを介してノイズ付きターゲットトークンと連結することで条件付けを行う。著者らは、約100万個の3Dオブジェクトからなる大規模な非ペアコレクションを、追加のアノテーションなしに各タスクの学習用トリプレットに変換する自動データ構築パイプラインを提案している。実験では、構成的3D強化、スパースビューからのガイド付き画像ベース3D再構成、および3D形状編集を対象とし、幾何学的整合性と知覚品質の指標で評価を行っている。

新規性

本論文の主な新規性は、タスク固有のモデルではなく、単一のアーキテクチャで強化・再構成・編集を扱う統一的な3D再生成の定式化にある。第二の特徴的な要素は条件付け設計であり、粗い入力形状とターゲット形状の両方を同一のVecSet潜在空間で表現し、トークン連結(ゼロ初期化MLP前処理と位置埋め込み付き)で融合する方式が、CLAYやHunyuan3D-Omniに触発されたクロスアテンション方式を上回ることがアブレーション実験で示されている。さらに、タスク固有のアノテーションなしに汎用3Dデータセットから劣化/高品質の学習ペアを生成する自己教師ありデータ生成プロトコルも実用的な貢献である。

成果

構成的強化では、21シーンから分解された623オブジェクトにおいて、3D-ReGenはULIP-3Dを0.2280(入力)および0.2294(DetailGen3D)から0.2626に、MV-ImageRewardを0.1716および0.1003から0.3394に向上させた。GSOでのガイド付き再構成では、VGGT+3D-ReGenが生のVGGT出力を大幅に改善し、4入力ビューでCD 0.0081、F-score 0.4913、IoU 0.7574、PSNR 24.2754、SSIM 0.9408、LPIPS 0.0873を達成し、同数以下のビューを用いる専用マルチビューベースラインと同等以上の性能を示した。アブレーション実験により、提案されたトークン連結条件付け機構がクロスアテンションや加算方式を上回ること、およびv-prediction拡散パラメータ化がrectified flowベースラインを上回ることが確認された。

論文の注目点

  1. 3D-ReGenは、VecSet潜在表現とDiffusion Transformerに基づく単一アーキテクチャを用いて、粗い・劣化した・不完全な・マスクされたジオメトリからオプションの画像ガイダンスとともに詳細な形状を再生成することで、複数の制御可能な3Dタスク(強化、スパースビュー再構成、編集)を統一的に扱う。
  2. 条件付け機構は入力とターゲットの両方のジオメトリを同一のVecSet潜在空間にエンコードし、ゼロ初期化MLP前処理によりDiTの結合入力として連結する方式であり、アブレーション実験によりCLAYやHunyuan3D-Omniに触発されたクロスアテンション方式を、特に密またはノイズの多い3D条件において上回ることが示されている。
  3. 学習は約100万個の3Dオブジェクトの基盤データセットから自動生成された劣化/高品質ペアに依存しており、手動アノテーションなしに強化・再構成・編集のためのタスク固有のデータ構築を可能にしている。TRELLISのような既存の生成フレームワークは、このような専用のファインチューニングデータなしには再生成タスクで失敗することが示されている。

参考リンク

このページはGPT-5、Claude Opus 4、Gemini 3、Gemini 3.1 Flash Image 及びその上位バージョンなどの生成AIを用いて作成されています。内容の保証は一切できません。