論文の概要: Geo-Align: Video Generation Alignment via Metric Geometry Reward
- arxiv url: http://arxiv.org/abs/2605.23903v1
- Date: Fri, 22 May 2026 17:59:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.466436
- Title: Geo-Align: Video Generation Alignment via Metric Geometry Reward
- Title(参考訳): Geo-Align:Metric Geometry Rewardによるビデオ生成アライメント
- Authors: Zizun Li, Haoyu Guo, Runzhe Teng, Chunhua Shen, Tong He,
- Abstract要約: Geo-Alignは、カメラ制御ビデオ再レンダリング用に特別に設計された最初の強化学習フレームワークである。
事前訓練されたモデルに基づいて、スケールアウェアの知覚報酬機構を用いてモデルを最適化する。
実験により、Geo-Alignは、カメラの正確な制御性と視覚的忠実性の両方において、既存の教師付き学習ベースラインを一貫して上回っていることが示された。
- 参考スコア(独自算出の注目度): 53.65904111864641
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Camera-controlled video generation has achieved remarkable progress in recent years. However, existing video-to-video re-rendering methods primarily rely on Supervised Fine-Tuning using synthetic datasets. At present, there is an extreme scarcity of synchronized, multi-view real-world video data. Consequently, the prevailing paradigm often exhibits limited generalization when processing out-of-distribution real-world videos, with models struggling to accurately adhere to physical scales and camera trajectories. To bridge this gap, we propose Geo-Align, the first Reinforcement Learning framework specifically designed for camera-controlled video re-rendering. Built upon a pretrained model, we optimize the model through a scale-aware perceptual reward mechanism. Specifically, we introduce a metric 3D estimator to extract precise camera trajectories from generated videos, explicitly penalizing deviations in rotation and translation. Furthermore, we meticulously designed a data pipeline strategy based on real-world conditioning videos and target camera trajectories derived from synthetic data, eliminating the reliance on paired data. Extensive experiments demonstrate that Geo-Align consistently outperforms existing supervised learning baselines in both precise camera controllability and visual fidelity, indicating the effectiveness of our method.
- Abstract(参考訳): 近年,カメラによる映像生成は顕著な進歩を遂げている。
しかし、既存のビデオからビデオへの再レンダリング方法は、主に合成データセットを使用したSupervised Fine-Tuningに依存している。
現在,リアルタイムビデオデータの同期化は極めて少ない。
その結果、一般的なパラダイムは、物理スケールやカメラの軌跡に正確に従うのに苦慮したモデルで、配信外の実世界のビデオを処理する際に、限定的な一般化を示すことが多い。
このギャップを埋めるために,カメラ制御ビデオ再レンダリング用に設計された最初の強化学習フレームワークであるGeo-Alignを提案する。
事前訓練されたモデルに基づいて、スケールアウェアの知覚報酬機構を用いてモデルを最適化する。
具体的には、生成したビデオから精密なカメラ軌跡を抽出し、回転・翻訳の偏差を明示する計量3次元推定器を提案する。
さらに,実世界のコンディショニングビデオと,合成データからのカメラトラジェクトリに基づくデータパイプライン戦略を慎重に設計し,ペアデータへの依存を排除した。
広汎な実験により,Geo-Alignは既存の教師付き学習ベースラインを精度の高いカメラ制御性と視覚的忠実性の両方で一貫した性能を発揮し,その有効性を示した。
関連論文リスト
- Warp-as-History: Generalizable Camera-Controlled Video Generation from One Training Video [19.675672131137382]
本稿では,カメラによるワープをカメラワープした擬似歴史に変換するシンプルなインタフェースを提案する。
我々は,その位置エンコーディングと対象フレームの識別とを整合させ,正確な情報源観測を行なわずに歪んだ歴史トークンを除去する。
本手法は,テスト時間最適化やターゲット映像適応を伴わずに,カメラの付着性,視覚的品質,動きのダイナミクスを改善する。
論文 参考訳(メタデータ) (2026-05-14T17:58:26Z) - Scalable Adaptation of 3D Geometric Foundation Models via Weak Supervision from Internet Video [76.32954467706581]
本稿では,生のビデオストリームからGEometric foundationモデルのスケーラブル適応を行うフレームワークであるSAGEを提案する。
階層的なマイニングパイプラインを使用して、ビデオをトレーニングトラジェクトリやハイブリッド監視に変換します。
実験の結果、SAGEはゼロショットの一般化を著しく向上し、チェムファー距離を20-42%削減した。
論文 参考訳(メタデータ) (2026-02-08T09:53:21Z) - Infinite-Homography as Robust Conditioning for Camera-Controlled Video Generation [49.12018869332346]
InfCamは、高ポーズ忠実度でカメラ制御されたビデオ・ビデオ生成フレームワークである。
1)ビデオ拡散モデルの2次元潜在空間内で直接3次元カメラ回転を符号化する。
論文 参考訳(メタデータ) (2025-12-18T20:03:05Z) - Taming Camera-Controlled Video Generation with Verifiable Geometry Reward [36.31658788083449]
我々は、事前訓練されたビデオ生成器を正確なカメラ制御のために最適化するオンライン強化学習フレームワークを導入する。
生成されたビデオと参照ビデオの両方の3次元カメラ軌跡を推定し、各軌跡を短いセグメントに分割し、セグメントの相対的なポーズを計算する。
我々は、多彩な大振幅カメラの動きと、様々な主題のダイナミックスを持つシーンを特徴とする包括的データセットを構築した。
論文 参考訳(メタデータ) (2025-12-02T15:33:19Z) - Towards High-Consistency Embodied World Model with Multi-View Trajectory Videos [24.111891848073288]
身体的世界モデルは、視覚的な観察と行動を通じて物理的世界と予測し、相互作用することを目的としている。
MTV-Worldは正確なビジュモータ予測のためのマルチビュートラジェクトリ・ビデオ制御を導入した。
MTV-Worldは、複雑なデュアルアームシナリオにおける正確な制御実行と正確な物理的相互作用モデリングを実現する。
論文 参考訳(メタデータ) (2025-11-17T02:17:04Z) - Vid-CamEdit: Video Camera Trajectory Editing with Generative Rendering from Estimated Geometry [41.904066758259624]
ビデオカメラトラジェクトリ編集のための新しいフレームワークであるVid-CamEditを紹介する。
我々のアプローチは、時間的に一貫した幾何を推定する2つのステップと、この幾何学によって導かれる生成的レンダリングからなる。
論文 参考訳(メタデータ) (2025-06-16T17:02:47Z) - VideoLifter: Lifting Videos to 3D with Fast Hierarchical Stereo Alignment [54.66217340264935]
VideoLifterは、ローカルからグローバルへの戦略を断片的に活用する、新しいビデオから3Dパイプラインである。
再建プロセスを大幅に加速し、訓練時間を82%以上削減し、現在のSOTA法よりも視覚的品質を向上した。
論文 参考訳(メタデータ) (2025-01-03T18:52:36Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - ParticleSfM: Exploiting Dense Point Trajectories for Localizing Moving
Cameras in the Wild [57.37891682117178]
本稿では,一対の光流からの高密度対応に基づく動画の高密度間接構造抽出手法を提案する。
不規則点軌道データを処理するために,新しいニューラルネットワークアーキテクチャを提案する。
MPIシンテルデータセットを用いた実験により,我々のシステムはより正確なカメラ軌道を生成することがわかった。
論文 参考訳(メタデータ) (2022-07-19T09:19:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。