論文の概要: JOG3R: Towards 3D-Consistent Video Generators
- arxiv url: http://arxiv.org/abs/2501.01409v2
- Date: Wed, 26 Mar 2025 20:53:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:50:06.741631
- Title: JOG3R: Towards 3D-Consistent Video Generators
- Title(参考訳): JOG3R:3D持続型ビデオジェネレータを目指して
- Authors: Chun-Hao Paul Huang, Niloy Mitra, Hyeonho Jeong, Jae Shin Yoon, Duygu Ceylan,
- Abstract要約: 映像生成装置も同様に3D認識能力を示すかを検討する。
映像生成装置の中間的特徴がカメラポーズ推定をサポートすることができるかどうかを検証する。
そこで本研究では,3D対応でリアルな映像フレームを生成し,他の3D対応タスクに再利用可能な,最初の統合映像生成装置を提案する。
- 参考スコア(独自算出の注目度): 12.967198315639106
- License:
- Abstract: Emergent capabilities of image generators have led to many impactful zero- or few-shot applications. Inspired by this success, we investigate whether video generators similarly exhibit 3D-awareness. Using structure-from-motion as a 3D-aware task, we test if intermediate features of a video generator - OpenSora in our case - can support camera pose estimation. Surprisingly, at first, we only find a weak correlation between the two tasks. Deeper investigation reveals that although the video generator produces plausible video frames, the frames themselves are not truly 3D-consistent. Instead, we propose to jointly train for the two tasks, using photometric generation and 3D aware errors. Specifically, we find that SoTA video generation and camera pose estimation (i.e.,DUSt3R [79]) networks share common structures, and propose an architecture that unifies the two. The proposed unified model, named \nameMethod, produces camera pose estimates with competitive quality while producing 3D-consistent videos. In summary, we propose the first unified video generator that is 3D-consistent, generates realistic video frames, and can potentially be repurposed for other 3D-aware tasks.
- Abstract(参考訳): 画像ジェネレータの創発的能力は、多くのインパクトのあるゼロショットや少数ショットのアプリケーションを生み出している。
この成功に触発されて、ビデオジェネレータも同様に3D認識能力を示すかどうかを調査する。
3D対応タスクとしてStructure-from-motionを用いることで、ビデオジェネレータの中間機能であるOpenSoraがカメラのポーズ推定をサポートできるかどうかをテストする。
意外なことに、最初は2つのタスクの間に弱い相関しか見つからなかった。
より深い調査によると、ビデオジェネレータは可塑性ビデオフレームを生成するが、フレーム自体が真の3D一貫性はない。
そこで本研究では,光メトリック生成と3次元認識誤りを用いて2つのタスクを共同で訓練することを提案する。
具体的には、SoTAビデオ生成とカメラポーズ推定(DUSt3R [79])ネットワークが共通の構造を共有し、両者を統一するアーキテクチャを提案する。
提案した統合モデルである \nameMethod は、3D一貫性のあるビデオを生成しながら、競合品質のカメラポーズ推定を生成する。
要約して,本研究では,3D対応でリアルな映像フレームを生成し,他の3D対応タスクに再利用可能な,最初の統一映像生成装置を提案する。
関連論文リスト
- LiftImage3D: Lifting Any Single Image to 3D Gaussians with Video Generation Priors [107.83398512719981]
シングルイメージの3D再構成は、コンピュータビジョンの根本的な課題である。
遅延ビデオ拡散モデルの最近の進歩は、大規模ビデオデータから学ぶ有望な3D事前情報を提供する。
本稿では,LVDMの生成先行情報を効果的にリリースするフレームワークであるLiftImage3Dを提案する。
論文 参考訳(メタデータ) (2024-12-12T18:58:42Z) - AC3D: Analyzing and Improving 3D Camera Control in Video Diffusion Transformers [66.29824750770389]
カメラの動きを第一原理の観点から分析し、正確な3Dカメラ操作を可能にする洞察を明らかにする。
これらの知見を合成して、高度な3Dカメラ制御(AC3D)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2024-11-27T18:49:13Z) - Generating 3D-Consistent Videos from Unposed Internet Photos [68.944029293283]
カメラパラメータなどの3Dアノテーションを使わずに,スケーラブルな3D対応ビデオモデルをトレーニングする。
その結果,映像やマルチビューインターネット写真などの2次元データのみを用いて,シーンレベルの3D学習をスケールアップできることが示唆された。
論文 参考訳(メタデータ) (2024-11-20T18:58:31Z) - SpaRP: Fast 3D Object Reconstruction and Pose Estimation from Sparse Views [36.02533658048349]
本研究では,3次元テクスチャメッシュを再構成し,スパースビュー画像に対する相対カメラのポーズを推定する新しい手法であるSpaRPを提案する。
SpaRPは2次元拡散モデルから知識を抽出し、それらを微調整し、スパースビュー間の3次元空間関係を暗黙的に推論する。
テクスチャ化されたメッシュを生成するのに、わずか20秒しかかからず、カメラは入力ビューにポーズする。
論文 参考訳(メタデータ) (2024-08-19T17:53:10Z) - Unsupervised Learning of Category-Level 3D Pose from Object-Centric Videos [15.532504015622159]
カテゴリーレベルの3Dポーズ推定は、コンピュータビジョンとロボット工学において基本的に重要な問題である。
カテゴリーレベルの3Dポーズを,カジュアルに撮られた対象中心の動画からのみ推定する学習の課題に取り組む。
論文 参考訳(メタデータ) (2024-07-05T09:43:05Z) - Improving the Robustness of 3D Human Pose Estimation: A Benchmark and Learning from Noisy Input [23.505846631252993]
本研究では,2次元から3次元のポーズリフタのロバスト性に着目した。
汚職の存在下では,最先端の3Dポーズリフトの一般化が不十分であるのを観察する。
本稿では, 時間付加型ガウスノイズ(TAGN)を, 単純かつ効果的な2次元入力ポーズデータ拡張として導入する。
2次元ポーズ検出器によって出力される信頼度スコアを組み込むため、我々は、信頼を意識した畳み込み(CA-Conv)ブロックを設計する。
論文 参考訳(メタデータ) (2023-12-11T19:13:38Z) - Towards Robust and Smooth 3D Multi-Person Pose Estimation from Monocular
Videos in the Wild [10.849750765175754]
POTR-3Dは3DMPPEのためのシーケンスツーシーケンス2D-to-3Dリフトモデルである。
多様な見えないビューに強く一般化し、重いオクルージョンに対するポーズを強く回復し、より自然でスムーズなアウトプットを確実に生成する。
論文 参考訳(メタデータ) (2023-09-15T06:17:22Z) - 3D Human Pose Estimation in Multi-View Operating Room Videos Using
Differentiable Camera Projections [2.486571221735935]
本稿では,3次元の損失に基づいて2次元CNNをエンドツーエンドにトレーニングすることで,3次元のローカライゼーションを直接最適化することを提案する。
MVORデータセットの動画を用いて、このエンドツーエンドアプローチが2次元空間での最適化より優れていることを示す。
論文 参考訳(メタデータ) (2022-10-21T09:00:02Z) - Video Autoencoder: self-supervised disentanglement of static 3D
structure and motion [60.58836145375273]
ビデオから3次元構造とカメラポーズの遠心分離表現を学習するために,ビデオオートエンコーダを提案する。
この表現は、新しいビュー合成、カメラポーズ推定、動きの追従によるビデオ生成など、様々なタスクに適用することができる。
論文 参考訳(メタデータ) (2021-10-06T17:57:42Z) - CAMPARI: Camera-Aware Decomposed Generative Neural Radiance Fields [67.76151996543588]
画像だけでなく,カメラデータ分布を忠実に復元する3次元およびカメラ認識生成モデルについて検討した。
テスト時に、私たちのモデルは、カメラを明示的に制御し、シーンの形状と外観で画像を生成します。
論文 参考訳(メタデータ) (2021-03-31T17:59:24Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。