FuguReport

Helix4D: Complex 4D Mesh Generation

著者 Jiraphon Yenphraphai, Jianqi Chen, Jian Wang, Gordon Qian, Sergey Tulyakov, Rameen Abdal, Raymond A. Yeh, Peter Wonka, Chaoyang Wang
所属 Snap / King Abdullah University of Science and Technology / Purdue University
カテゴリ Method / 3D Reconstruction / 4D mesh generation from video, Application / Geometry Processing / Modeling complex topology and structures, Method / Dynamic Mesh / Mesh generation framework
ライセンス CC BY 4.0

Abstractの概要

Helix4Dは、事前学習済みのTrellis2画像-to-3Dモデルを適応させ、オブジェクト中心の動画から時間的に一貫したメッシュシーケンスを生成するvideo-to-4D動的メッシュ生成フレームワークである。本論文は、トポロジーの変化、透明または半透明の素材、薄い構造、内部表面など、従来の手法が苦手としていた困難なケースを対象としている。その設計では、最初のフレームをアンカーとしたスライディングウィンドウ型クロスフレームアテンション、固定されたTrellis2再構成による初回フレームの条件付け、および低周波の空間RoPE帯域を時間用に再利用するパラメータフリーの4D位置エンコーディングを組み合わせている。著者らは、ActionBench、ホールドアウトされたTexVerseサブセット、および複雑なダイナミクスと素材を強調した新しい52動画のHelix4DBenchにおいて、本手法を評価している。

新規性

主な新規性は、強力な静的3D基盤モデルの能力(事前学習された形状や素材の特徴)を保持したまま、動画を条件とする4Dメッシュ生成へと引き上げる体系的な方法を提案した点にある。技術的には、アンカーベースのスライディングウィンドウ型クロスフレームアテンションと、新たな時間パラメータを追加する代わりに冗長な低周波空間帯域を時間エンコーディングに割り当てるパラメータフリーの時空間RoPEを導入している。

成果

Helix4DはActionBenchにおいてActionMeshをCD-3Dで3.8%上回り、より難易度の高いHelix4DBenchでは、ULIP-2やUni3Dなどを含む全指標で最強のベースラインをそれぞれ5.7%、7.8%上回るなど、報告されたすべてのベースラインを凌駕した。ユーザー調査では比較対象の67.9%で最良のベースラインよりも高く評価され、ホールドアウトされたTexVerseテストセットでも比較手法中で最高のCD-3DおよびCD-4Dを達成している。アブレーション検証により、初回フレームの条件付け、提案された4D回転埋め込み、およびスライディングウィンドウとアンカーを組み合わせたアテンションのそれぞれが、品質と時間的一貫性に貢献していることが示された。

論文の注目点

  1. Helix4Dは、Trellis2を単一画像の3D生成から動画を条件とする4Dメッシュ生成へと拡張し、非水密(閉じていない)形状や複雑な素材、内部表面への対応を維持している。
  2. 本手法は、最初のフレームをアンカーとしたスライディングウィンドウ型クロスフレームアテンションと初回フレーム条件付けを使用することで、後続フレームに強力な静的再構成の事前知識を効率的に引き継がせている。
  3. Helix4DBench、ActionBench、およびホールドアウトされたTexVerseサブセットにおいて、本モデルは比較ベースライン中で最も優れた全体的定量評価を報告しており、特に困難なトポロジーや素材の変化において強みを示している。

参考リンク

このページはGPT-5、Claude Opus 4、Gemini 3、Gemini 3.1 Flash Image 及びその上位バージョンなどの生成AIを用いて作成されています。内容の保証は一切できません。