論文の概要: Helix4D: Complex 4D Mesh Generation
- arxiv url: http://arxiv.org/abs/2605.26109v1
- Date: Mon, 25 May 2026 17:59:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.657666
- Title: Helix4D: Complex 4D Mesh Generation
- Title(参考訳): Helix4D:複雑な4Dメッシュ生成
- Authors: Jiraphon Yenphraphai, Jianqi Chen, Jian Wang, Gordon Qian, Sergey Tulyakov, Rameen Abdal, Raymond A. Yeh, Peter Wonka, Chaoyang Wang,
- Abstract要約: 現在のビデオから4Dの手法は、複雑なトポロジーの変化、透明な材料、細い構造、内面に悩まされている。
本稿では,Trellis2の表現表現を継承した動的メッシュ生成フレームワークHelix4Dを提案する。
- 参考スコア(独自算出の注目度): 81.2132565366057
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current video-to-4D methods struggle with complex topology changes, transparent materials, thin structures, and inner surfaces. We present Helix4D, a dynamic mesh generation framework by inheriting the expressive representation of Trellis2, adapting it from image-to-3D to video-conditioned 4D generation. Our design arises from two key questions: (a) how to enable Trellis2's frame-local attention to share information across frames while preserving its pretrained quality on rare cases such as transparent objects and inner surfaces, and (b) how to inject temporal information into a purely 3D positional encoding without breaking pretrained capabilities. We address (a) with a sliding-window cross-frame attention and anchor on the first frame. The first frame is generated by the base Trellis2 model and injected into our model, letting it inherit Trellis2's quality in rare cases through cross-frame attention. We address (b) with a 4D temporal encoding that repurposes redundant low-frequency spatial RoPE bands for time, extending the encoding from 3D with no additional parameters. Extensive experiments show the effectiveness of Helix4D for high-quality dynamic mesh generation on ActionBench and our own challenging complex dynamics set.
- Abstract(参考訳): 現在のビデオから4Dの手法は、複雑なトポロジーの変化、透明な材料、細い構造、内面に悩まされている。
本稿では,Trellis2の表現表現を継承した動的メッシュ生成フレームワークHelix4Dについて述べる。
私たちのデザインは2つの重要な質問から生まれます。
(a)透明物や内面などの稀なケースにおいて、トレリス2のフレームローカルな注意をフレーム間で共有し、その事前学習品質を保ちながら、情報を共有できるようにする方法
(b)事前学習能力を損なうことなく、純粋に3次元位置符号化に時間情報を注入する方法。
特集にあたって
(a)第1枠に横風の注意を引いて固定する。
最初のフレームはベースであるTrellis2モデルによって生成され、私たちのモデルに注入されます。
特集にあたって
(b) 余分な低周波空間RoPE帯域を時間的に再利用する4次元テンポラルエンコーディングを用い, 余分なパラメータを伴わない3次元からエンコーディングを拡張した。
大規模な実験により,ActionBench上でのハイクオリティな動的メッシュ生成と,我々の挑戦的な複雑な動的集合に対するHelix4Dの有効性が示された。
関連論文リスト
- SS4D: Native 4D Generative Model via Structured Spacetime Latents [50.29500511908054]
モノクロビデオから直接動的3Dオブジェクトを合成する,ネイティブな4D生成モデルであるSS4Dを提案する。
発電機を4Dデータで直接訓練し、高忠実度、時間的コヒーレンス、構造的整合性を実現する。
論文 参考訳(メタデータ) (2025-12-16T10:45:06Z) - Tracking-Guided 4D Generation: Foundation-Tracker Motion Priors for 3D Model Animation [21.075786141331974]
スパース入力から動的4Dオブジェクトを生成するフレームワークであるemphTrack4DGenを提案する。
ステージ1では拡散発生器内の高密度な特徴レベル対応を強制する。
ステージ2では,ハイブリッドモーション符号化を用いて動的4D-GSを再構成する。
論文 参考訳(メタデータ) (2025-12-05T21:13:04Z) - ShapeGen4D: Towards High Quality 4D Shape Generation from Videos [85.45517487721257]
ビデオからエンドツーエンドに1つの動的3次元表現を合成する,ネイティブなビデオから4次元の形状生成フレームワークを提案する。
本手法は,フレームごとの最適化を行なわずに,非剛性運動,体積変化,および位相遷移を正確にキャプチャする。
論文 参考訳(メタデータ) (2025-10-07T17:58:11Z) - Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency [49.875459658889355]
Free4Dは、単一の画像から4Dシーンを生成するためのチューニング不要のフレームワークである。
我々の重要な洞察は、一貫した4次元シーン表現のために、事前訓練された基礎モデルを蒸留することである。
結果の4D表現はリアルタイムで制御可能なレンダリングを可能にする。
論文 参考訳(メタデータ) (2025-03-26T17:59:44Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
textbf4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
我々のパイプラインは、制御可能な4D生成を容易にし、ユーザがモノクロビデオで動きを指定したり、画像から映像への世代を適用できる。
既存のビデオから4Dのベースラインと比較すると,入力信号の忠実な再構成には優れた結果が得られる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。