Helix4D: Complex 4D Mesh Generation
Abstractの概要
Helix4Dは、事前学習済みのTrellis2画像-to-3Dモデルを適応させ、オブジェクト中心の動画から時間的に一貫したメッシュシーケンスを生成するvideo-to-4D動的メッシュ生成フレームワークである。本論文は、トポロジーの変化、透明または半透明の素材、薄い構造、内部表面など、従来の手法が苦手としていた困難なケースを対象としている。その設計では、最初のフレームをアンカーとしたスライディングウィンドウ型クロスフレームアテンション、固定されたTrellis2再構成による初回フレームの条件付け、および低周波の空間RoPE帯域を時間用に再利用するパラメータフリーの4D位置エンコーディングを組み合わせている。著者らは、ActionBench、ホールドアウトされたTexVerseサブセット、および複雑なダイナミクスと素材を強調した新しい52動画のHelix4DBenchにおいて、本手法を評価している。
新規性
主な新規性は、強力な静的3D基盤モデルの能力(事前学習された形状や素材の特徴)を保持したまま、動画を条件とする4Dメッシュ生成へと引き上げる体系的な方法を提案した点にある。技術的には、アンカーベースのスライディングウィンドウ型クロスフレームアテンションと、新たな時間パラメータを追加する代わりに冗長な低周波空間帯域を時間エンコーディングに割り当てるパラメータフリーの時空間RoPEを導入している。
成果
Helix4DはActionBenchにおいてActionMeshをCD-3Dで3.8%上回り、より難易度の高いHelix4DBenchでは、ULIP-2やUni3Dなどを含む全指標で最強のベースラインをそれぞれ5.7%、7.8%上回るなど、報告されたすべてのベースラインを凌駕した。ユーザー調査では比較対象の67.9%で最良のベースラインよりも高く評価され、ホールドアウトされたTexVerseテストセットでも比較手法中で最高のCD-3DおよびCD-4Dを達成している。アブレーション検証により、初回フレームの条件付け、提案された4D回転埋め込み、およびスライディングウィンドウとアンカーを組み合わせたアテンションのそれぞれが、品質と時間的一貫性に貢献していることが示された。
論文の注目点
- Helix4Dは、Trellis2を単一画像の3D生成から動画を条件とする4Dメッシュ生成へと拡張し、非水密(閉じていない)形状や複雑な素材、内部表面への対応を維持している。
- 本手法は、最初のフレームをアンカーとしたスライディングウィンドウ型クロスフレームアテンションと初回フレーム条件付けを使用することで、後続フレームに強力な静的再構成の事前知識を効率的に引き継がせている。
- Helix4DBench、ActionBench、およびホールドアウトされたTexVerseサブセットにおいて、本モデルは比較ベースライン中で最も優れた全体的定量評価を報告しており、特に困難なトポロジーや素材の変化において強みを示している。
参考リンク
- arXiv: https://arxiv.org/abs/2605.26109v1
- Fugu-MT: https://fugumt.com/fugumt/paper_check/2605.26109v1
- Hugging Face Papers: https://huggingface.co/papers/2605.26109
- Project: https://snap-research.github.io/helix4d/