論文の概要: On Unifying Video Generation and Camera Pose Estimation
- arxiv url: http://arxiv.org/abs/2501.01409v1
- Date: Thu, 02 Jan 2025 18:55:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:16:21.970594
- Title: On Unifying Video Generation and Camera Pose Estimation
- Title(参考訳): 映像生成とカメラポーズ推定の統一について
- Authors: Chun-Hao Paul Huang, Jae Shin Yoon, Hyeonho Jeong, Niloy Mitra, Duygu Ceylan,
- Abstract要約: 画像生成装置の創発的な3D機能にインスパイアされ、映像生成装置も同様に3D認識を示すかどうかを探索する。
まず、DUSt3RのようなSfM予測モジュールに生の中間出力をルーティングすることで、ビデオ生成機能におけるネイティブな3D認識について検討する。
その結果,映像生成機能には固有の3D認識が限定されているのに対し,タスク固有の監視はカメラポーズ推定の精度を著しく向上させることがわかった。
- 参考スコア(独自算出の注目度): 12.967198315639106
- License:
- Abstract: Inspired by the emergent 3D capabilities in image generators, we explore whether video generators similarly exhibit 3D awareness. Using structure-from-motion (SfM) as a benchmark for 3D tasks, we investigate if intermediate features from OpenSora, a video generation model, can support camera pose estimation. We first examine native 3D awareness in video generation features by routing raw intermediate outputs to SfM-prediction modules like DUSt3R. Then, we explore the impact of fine-tuning on camera pose estimation to enhance 3D awareness. Results indicate that while video generator features have limited inherent 3D awareness, task-specific supervision significantly boosts their accuracy for camera pose estimation, resulting in competitive performance. The proposed unified model, named JOG3R, produces camera pose estimates with competitive quality without degrading video generation quality.
- Abstract(参考訳): 画像生成装置の創発的な3D機能にインスパイアされ、映像生成装置も同様に3D認識を示すかどうかを探索する。
3DタスクのベンチマークとしてStructure-from-motion (SfM) を用いて,ビデオ生成モデルであるOpenSoraの中間的特徴がカメラポーズ推定をサポートするかどうかを検討する。
まず、DUSt3RのようなSfM予測モジュールに生中間出力をルーティングすることで、ビデオ生成機能におけるネイティブな3D認識について検討する。
そこで,3次元認識を高めるために,微調整がカメラポーズ推定に与える影響について検討した。
その結果,映像生成機能には固有の3D認識が限定されているのに対し,タスク固有の監視はカメラポーズ推定の精度を大幅に向上させ,競争性能が向上することが示された。
JOG3Rという名前の統一モデルでは、ビデオ生成品質を劣化させることなく、競合品質のカメラポーズ推定を行う。
関連論文リスト
- LiftImage3D: Lifting Any Single Image to 3D Gaussians with Video Generation Priors [107.83398512719981]
シングルイメージの3D再構成は、コンピュータビジョンの根本的な課題である。
遅延ビデオ拡散モデルの最近の進歩は、大規模ビデオデータから学ぶ有望な3D事前情報を提供する。
本稿では,LVDMの生成先行情報を効果的にリリースするフレームワークであるLiftImage3Dを提案する。
論文 参考訳(メタデータ) (2024-12-12T18:58:42Z) - AC3D: Analyzing and Improving 3D Camera Control in Video Diffusion Transformers [66.29824750770389]
カメラの動きを第一原理の観点から分析し、正確な3Dカメラ操作を可能にする洞察を明らかにする。
これらの知見を合成して、高度な3Dカメラ制御(AC3D)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2024-11-27T18:49:13Z) - Generating 3D-Consistent Videos from Unposed Internet Photos [68.944029293283]
カメラパラメータなどの3Dアノテーションを使わずに,スケーラブルな3D対応ビデオモデルをトレーニングする。
その結果,映像やマルチビューインターネット写真などの2次元データのみを用いて,シーンレベルの3D学習をスケールアップできることが示唆された。
論文 参考訳(メタデータ) (2024-11-20T18:58:31Z) - SpaRP: Fast 3D Object Reconstruction and Pose Estimation from Sparse Views [36.02533658048349]
本研究では,3次元テクスチャメッシュを再構成し,スパースビュー画像に対する相対カメラのポーズを推定する新しい手法であるSpaRPを提案する。
SpaRPは2次元拡散モデルから知識を抽出し、それらを微調整し、スパースビュー間の3次元空間関係を暗黙的に推論する。
テクスチャ化されたメッシュを生成するのに、わずか20秒しかかからず、カメラは入力ビューにポーズする。
論文 参考訳(メタデータ) (2024-08-19T17:53:10Z) - Unsupervised Learning of Category-Level 3D Pose from Object-Centric Videos [15.532504015622159]
カテゴリーレベルの3Dポーズ推定は、コンピュータビジョンとロボット工学において基本的に重要な問題である。
カテゴリーレベルの3Dポーズを,カジュアルに撮られた対象中心の動画からのみ推定する学習の課題に取り組む。
論文 参考訳(メタデータ) (2024-07-05T09:43:05Z) - Improving the Robustness of 3D Human Pose Estimation: A Benchmark and Learning from Noisy Input [23.505846631252993]
本研究では,2次元から3次元のポーズリフタのロバスト性に着目した。
汚職の存在下では,最先端の3Dポーズリフトの一般化が不十分であるのを観察する。
本稿では, 時間付加型ガウスノイズ(TAGN)を, 単純かつ効果的な2次元入力ポーズデータ拡張として導入する。
2次元ポーズ検出器によって出力される信頼度スコアを組み込むため、我々は、信頼を意識した畳み込み(CA-Conv)ブロックを設計する。
論文 参考訳(メタデータ) (2023-12-11T19:13:38Z) - Towards Robust and Smooth 3D Multi-Person Pose Estimation from Monocular
Videos in the Wild [10.849750765175754]
POTR-3Dは3DMPPEのためのシーケンスツーシーケンス2D-to-3Dリフトモデルである。
多様な見えないビューに強く一般化し、重いオクルージョンに対するポーズを強く回復し、より自然でスムーズなアウトプットを確実に生成する。
論文 参考訳(メタデータ) (2023-09-15T06:17:22Z) - 3D Human Pose Estimation in Multi-View Operating Room Videos Using
Differentiable Camera Projections [2.486571221735935]
本稿では,3次元の損失に基づいて2次元CNNをエンドツーエンドにトレーニングすることで,3次元のローカライゼーションを直接最適化することを提案する。
MVORデータセットの動画を用いて、このエンドツーエンドアプローチが2次元空間での最適化より優れていることを示す。
論文 参考訳(メタデータ) (2022-10-21T09:00:02Z) - Video Autoencoder: self-supervised disentanglement of static 3D
structure and motion [60.58836145375273]
ビデオから3次元構造とカメラポーズの遠心分離表現を学習するために,ビデオオートエンコーダを提案する。
この表現は、新しいビュー合成、カメラポーズ推定、動きの追従によるビデオ生成など、様々なタスクに適用することができる。
論文 参考訳(メタデータ) (2021-10-06T17:57:42Z) - CAMPARI: Camera-Aware Decomposed Generative Neural Radiance Fields [67.76151996543588]
画像だけでなく,カメラデータ分布を忠実に復元する3次元およびカメラ認識生成モデルについて検討した。
テスト時に、私たちのモデルは、カメラを明示的に制御し、シーンの形状と外観で画像を生成します。
論文 参考訳(メタデータ) (2021-03-31T17:59:24Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。