論文の概要: Towards Realistic and Consistent Orbital Video Generation via 3D Foundation Priors
- arxiv url: http://arxiv.org/abs/2604.12309v1
- Date: Tue, 14 Apr 2026 05:35:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.261973
- Title: Towards Realistic and Consistent Orbital Video Generation via 3D Foundation Priors
- Title(参考訳): 3Dファウンデーションによるリアルかつ一貫性のある軌道ビデオ生成に向けて
- Authors: Rong Wang, Ruyi Zha, Ziang Cheng, Jiayu Yang, Pulak Purkait, Hongdong Li,
- Abstract要約: 本稿では,物体の単一画像からオービタルビデオを生成する新しい手法を提案する。
本手法は,最先端の手法と比較して,視覚的品質,形状リアリズム,多視点整合性を実現している。
- 参考スコア(独自算出の注目度): 61.34273238077091
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel method for generating geometrically realistic and consistent orbital videos from a single image of an object. Existing video generation works mostly rely on pixel-wise attention to enforce view consistency across frames. However, such mechanism does not impose sufficient constraints for long-range extrapolation, e.g. rear-view synthesis, in which pixel correspondences to the input image are limited. Consequently, these works often fail to produce results with a plausible and coherent structure. To tackle this issue, we propose to leverage rich shape priors from a 3D foundational generative model as an auxiliary constraint, motivated by its capability of modeling realistic object shape distributions learned from large 3D asset corpora. Specifically, we prompt the video generation with two scales of latent features encoded by the 3D foundation model: (i) a denoised global latent vector as an overall structural guidance, and (ii) a set of latent images projected from volumetric features to provide view-dependent and fine-grained geometry details. In contrast to commonly used 2.5D representations such as depth or normal maps, these compact features can model complete object shapes, and help to improve inference efficiency by avoiding explicit mesh extraction. To achieve effective shape conditioning, we introduce a multi-scale 3D adapter to inject feature tokens to the base video model via cross-attention, which retains its capabilities from general video pretraining and enables a simple and model-agonistic fine-tuning process. Extensive experiments on multiple benchmarks show that our method achieves superior visual quality, shape realism and multi-view consistency compared to state-of-the-art methods, and robustly generalizes to complex camera trajectories and in-the-wild images.
- Abstract(参考訳): 物体の単一画像から幾何学的にリアルで一貫した軌道ビデオを生成する新しい方法を提案する。
既存のビデオ生成作業は、主にフレーム間の表示一貫性を強制するためにピクセル単位の注意に頼っている。
しかし、そのようなメカニズムは、例えば、入力画像に対する画素対応が制限された後視野合成など、長距離外挿に十分な制約を課さない。
したがって、これらの研究はしばしば、可塑性で一貫性のある構造で結果を生み出すのに失敗する。
そこで本研究では, 大規模3次元アセットコーパスから学習した現実的な物体形状分布をモデル化する能力により, 3次元基本生成モデルから得られたリッチな形状の先行を補助的制約として活用することを提案する。
具体的には、3Dファウンデーションモデルによって符号化された2種類の潜伏特徴で映像生成を促す。
一 全体的な構造指針としての認知グローバル潜伏ベクトル、及び
(II)容積特徴から投影された潜像の集合で、ビュー依存的かつきめ細かな幾何学的詳細を提供する。
深さや正規写像のような一般的な2.5D表現とは対照的に、これらのコンパクトな特徴は完全なオブジェクト形状をモデル化することができ、明確なメッシュ抽出を避けることで推論効率を向上させるのに役立つ。
形状調整を効果的に行うために,クロスアテンションにより特徴トークンをベースビデオモデルに注入するマルチスケール3Dアダプタを導入する。
複数のベンチマーク実験により,本手法は最先端の手法に比べて優れた視覚的品質,形状リアリズム,多視点整合性を実現し,複雑なカメラ軌跡や地中画像に頑健に一般化することを示した。
関連論文リスト
- TAPESTRY: From Geometry to Appearance via Consistent Turntable Videos [65.99602532894241]
明示的な3次元幾何学に基づく高忠実度TTVを生成するためのフレームワークであるTAPESTRYを紹介する。
また,3D-Aware Inpaintingを用いた多段パイプラインを特徴とする,TTV入力からの下流再構成タスクを設計する。
その結果,本手法はビデオの整合性と最終的な再現性の両方において,既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2026-03-18T14:02:09Z) - OPFormer: Object Pose Estimation leveraging foundation model with geometric encoding [2.1987601456703474]
オブジェクト検出とポーズ推定をシームレスに統合する統合されたエンドツーエンドフレームワークを導入する。
当システムではまずCNOS検出器を用いて対象物体のローカライズを行う。
検出毎に、新しいポーズ推定モジュールOPFormerが正確な6Dポーズを推測する。
論文 参考訳(メタデータ) (2025-11-16T14:19:52Z) - Geometry and Perception Guided Gaussians for Multiview-consistent 3D Generation from a Single Image [10.648593818811976]
既存のアプローチはしばしば、微調整された事前訓練された2D拡散モデルや、高速ネットワーク推論を通じて直接3D情報を生成することに依存している。
本稿では,新たなモデルトレーニングを必要とせず,幾何学と知覚情報をシームレスに統合する新しい手法を提案する。
実験結果から,新しい視点合成法や3次元再構成法よりも優れ,頑健で一貫した3次元オブジェクト生成を実証した。
論文 参考訳(メタデータ) (2025-06-26T11:22:06Z) - CDI3D: Cross-guided Dense-view Interpolation for 3D Reconstruction [25.468907201804093]
大規模再構成モデル (LRM) は, 2次元拡散モデルにより生成された多視点画像を利用して3次元コンテンツを抽出する際の大きな可能性を示している。
しかし、2次元拡散モデルはしばしば、強い多視点一貫性を持つ高密度画像を生成するのに苦労する。
CDI3Dは,高画質で高画質な3D画像生成を実現するためのフィードフォワードフレームワークである。
論文 参考訳(メタデータ) (2025-03-11T03:08:43Z) - GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [111.16358607889609]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。