論文の概要: VideoGPA: Distilling Geometry Priors for 3D-Consistent Video Generation
- arxiv url: http://arxiv.org/abs/2601.23286v1
- Date: Fri, 30 Jan 2026 18:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.628362
- Title: VideoGPA: Distilling Geometry Priors for 3D-Consistent Video Generation
- Title(参考訳): VideoGPA:3D連続ビデオ生成に先立つ幾何学の蒸留
- Authors: Hongyang Du, Junjie Ye, Xiaoyan Cong, Runhao Li, Jingcheng Ni, Aman Agarwal, Zeqi Zhou, Zekun Li, Randall Balestriero, Yue Wang,
- Abstract要約: VideoGPAは、高密度な嗜好信号を自動的に導出する、データ効率のよい自己組織化フレームワークである。
人間のアノテーションを必要とせずに、固有の3D一貫性に向けた生成的分布を操縦する。
最小限の選好ペアを用いて、時間的安定性、身体的可視性、動きコヒーレンスを大幅に向上させる。
- 参考スコア(独自算出の注目度): 34.46015478321541
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While recent video diffusion models (VDMs) produce visually impressive results, they fundamentally struggle to maintain 3D structural consistency, often resulting in object deformation or spatial drift. We hypothesize that these failures arise because standard denoising objectives lack explicit incentives for geometric coherence. To address this, we introduce VideoGPA (Video Geometric Preference Alignment), a data-efficient self-supervised framework that leverages a geometry foundation model to automatically derive dense preference signals that guide VDMs via Direct Preference Optimization (DPO). This approach effectively steers the generative distribution toward inherent 3D consistency without requiring human annotations. VideoGPA significantly enhances temporal stability, physical plausibility, and motion coherence using minimal preference pairs, consistently outperforming state-of-the-art baselines in extensive experiments.
- Abstract(参考訳): 最近のビデオ拡散モデル(VDM)は視覚的に印象的な結果をもたらすが、それらは基本的に3次元構造的な一貫性を維持するのに苦労し、しばしば物体の変形や空間的ドリフトをもたらす。
これらの失敗は、標準的な認知的目的が幾何学的コヒーレンスに対する明示的なインセンティブを欠いているためである、という仮説を立てる。
これを解決するために,ビデオGPA(Video Geometric Preference Alignment)という,幾何学基礎モデルを利用したデータ効率の高い自己教師型フレームワークを導入し,DPO(Direct Preference Optimization)を介してVDMを誘導する高密度な嗜好信号を自動的に導出する。
このアプローチは、人間のアノテーションを必要とせずに、本質的な3D一貫性に向けた生成的分布を効果的に制御する。
VideoGPAは、最小限の選好ペアを使用して、時間的安定性、身体的可視性、動きコヒーレンスを著しく向上させ、広範囲な実験において一貫して最先端のベースラインを上回っている。
関連論文リスト
- Selfi: Self Improving Reconstruction Engine via 3D Geometric Feature Alignment [15.822150318879052]
機能アライメントによる自己改善型3D再構築パイプラインであるSelfiを紹介する。
我々は、リジェクションベースの一貫性損失を使用して軽量な機能アダプタを訓練する。
これにより、NVSとカメラのポーズ推定の両方における最先端のパフォーマンスが実現される。
論文 参考訳(メタデータ) (2025-12-09T18:59:52Z) - GeoVideo: Introducing Geometric Regularization into Video Generation Model [46.38507581500745]
フレームごとの深度予測による潜時拡散モデルの拡大により,ビデオ生成に幾何正則化損失を導入する。
本手法は, 外観生成と3次元構造モデリングのギャップを埋めることにより, 構造的コヒーレンス・時間的形状, 整合性, 物理的妥当性が向上する。
論文 参考訳(メタデータ) (2025-12-03T05:11:57Z) - Epipolar Geometry Improves Video Generation Models [73.44978239787501]
3D一貫性のあるビデオ生成は、生成および再構成タスクにおける多くの下流アプリケーションに大きな影響を与える可能性がある。
エピポーラ幾何学的制約が現代のビデオ拡散モデルをどのように改善するかを考察する。
データ駆動型ディープラーニングを古典的幾何学的コンピュータビジョンでブリッジすることで、空間的に一貫したビデオを生成する実用的な方法を提案する。
論文 参考訳(メタデータ) (2025-10-24T16:21:37Z) - ShapeGen4D: Towards High Quality 4D Shape Generation from Videos [85.45517487721257]
ビデオからエンドツーエンドに1つの動的3次元表現を合成する,ネイティブなビデオから4次元の形状生成フレームワークを提案する。
本手法は,フレームごとの最適化を行なわずに,非剛性運動,体積変化,および位相遷移を正確にキャプチャする。
論文 参考訳(メタデータ) (2025-10-07T17:58:11Z) - RLGF: Reinforcement Learning with Geometric Feedback for Autonomous Driving Video Generation [75.61028930882144]
この重要な問題を特定し定量化し,合成データと実データを用いた場合の3次元物体検出における顕著な性能差を示す。
本稿では,RLGFを用いた強化学習(Reinforcement Learning with Geometric Feedback, RLGF)を紹介する。
RLGFは幾何誤差(例えばVPエラーを21%、深さエラーを57%)を大幅に削減し、3Dオブジェクト検出のmAPを12.7%改善し、実際のデータ性能のギャップを狭める。
論文 参考訳(メタデータ) (2025-09-20T02:23:36Z) - UniGeo: Taming Video Diffusion for Unified Consistent Geometry Estimation [63.90470530428842]
本研究では、適切な設計と微調整により、ビデオ生成モデルの本質的な一貫性を一貫した幾何推定に有効に活用できることを実証する。
その結果,ビデオのグローバルな幾何学的属性の予測性能が向上し,再構成作業に直接適用できることがわかった。
論文 参考訳(メタデータ) (2025-05-30T12:31:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。