論文の概要: Dynamic Camera Poses and Where to Find Them
- arxiv url: http://arxiv.org/abs/2504.17788v1
- Date: Thu, 24 Apr 2025 17:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.493223
- Title: Dynamic Camera Poses and Where to Find Them
- Title(参考訳): ダイナミックカメラは、どこにカメラを置けばいいのか?
- Authors: Chris Rockwell, Joseph Tung, Tsung-Yi Lin, Ming-Yu Liu, David F. Fouhey, Chen-Hsuan Lin,
- Abstract要約: 我々はDynPose-100Kを紹介した。DynPose-100Kはカメラポーズを付加した動的インターネットビデオの大規模データセットである。
ポーズ推定には,最新のポイントトラッキング,動的マスキング,構造からの移動といった手法を組み合わせる。
分析と実験により,DynPose-100Kは大規模かつ多様であることがわかった。
- 参考スコア(独自算出の注目度): 36.249380390918816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Annotating camera poses on dynamic Internet videos at scale is critical for advancing fields like realistic video generation and simulation. However, collecting such a dataset is difficult, as most Internet videos are unsuitable for pose estimation. Furthermore, annotating dynamic Internet videos present significant challenges even for state-of-theart methods. In this paper, we introduce DynPose-100K, a large-scale dataset of dynamic Internet videos annotated with camera poses. Our collection pipeline addresses filtering using a carefully combined set of task-specific and generalist models. For pose estimation, we combine the latest techniques of point tracking, dynamic masking, and structure-from-motion to achieve improvements over the state-of-the-art approaches. Our analysis and experiments demonstrate that DynPose-100K is both large-scale and diverse across several key attributes, opening up avenues for advancements in various downstream applications.
- Abstract(参考訳): ダイナミックなインターネットビデオに注釈を付けることは、リアルなビデオ生成やシミュレーションといった分野の進展に不可欠である。
しかし、ほとんどのインターネットビデオはポーズ推定には適さないため、このようなデータセットの収集は困難である。
さらに、動的インターネットビデオの注釈付けは最先端の手法においても大きな課題となる。
本稿では,カメラポーズを付加した動的インターネットビデオの大規模データセットであるDynPose-100Kを紹介する。
我々のコレクションパイプラインは、タスク固有のモデルとジェネリリストモデルのセットを慎重に組み合わせたフィルタリングに対処する。
ポーズ推定には,最新技術であるポイントトラッキング,ダイナミックマスキング,ストラクチャ・トゥ・ムーブメントを組み合わせることで,最先端のアプローチに対する改善を実現する。
分析と実験により,DynPose-100Kは大規模かつ多様であり,様々な下流アプリケーションにおける進化の道を開くことが確認された。
関連論文リスト
- RealCam-Vid: High-resolution Video Dataset with Dynamic Scenes and Metric-scale Camera Movements [9.714839452308581]
RealCam-Vidは、メトリックスケールカメラアノテーションを備えたオープンソースの高解像度ダイナミックシーンデータセットである。
本稿では,メトリックスケールカメラアノテーションを付加した,オープンソースのハイレゾダイナミックシーンデータセットについて紹介する。
論文 参考訳(メタデータ) (2025-04-11T02:35:19Z) - AnyCam: Learning to Recover Camera Poses and Intrinsics from Casual Videos [52.726585508669686]
我々は,動的ビデオシーケンスからカメラのポーズと内在性を直接推定する高速トランスフォーマーモデルであるAnyCamを提案する。
確立したデータセット上でAnyCamをテストし、質的にも量的にも正確なカメラポーズと本質的な機能を提供します。
カメラ情報、不確実性、深さを組み合わせることで、我々のモデルは高品質な4Dポイントクラウドを作り出すことができる。
論文 参考訳(メタデータ) (2025-03-30T02:22:11Z) - FRAME: Floor-aligned Representation for Avatar Motion from Egocentric Video [52.33896173943054]
ヘッドマウントのボディフェイスステレオカメラを備えたエゴセントリックなモーションキャプチャーは、VRやARアプリケーションには不可欠だ。
既存の方法は、合成事前学習と、現実の環境で滑らかで正確な予測を生成するのに苦労している。
本稿では、デバイスポーズとカメラフィードを組み合わせて、最先端のボディポーズ予測を行う、シンプルで効果的なアーキテクチャFRAMEを提案する。
論文 参考訳(メタデータ) (2025-03-29T14:26:06Z) - DynOPETs: A Versatile Benchmark for Dynamic Object Pose Estimation and Tracking in Moving Camera Scenarios [20.835782699441797]
本稿では,制約のない環境下でのオブジェクトポーズ推定と追跡のための新しいデータセットDynOPETを提案する。
提案手法は,ポーズ推定とポーズ追跡を革新的に統合し,擬似ラベルを生成する。
得られたデータセットは、動くカメラから観察される動的オブジェクトの正確なポーズアノテーションを提供する。
論文 参考訳(メタデータ) (2025-03-25T13:13:44Z) - CameraCtrl II: Dynamic Scene Exploration via Camera-controlled Video Diffusion Models [89.63787060844409]
CameraCtrl IIは、カメラ制御ビデオ拡散モデルによる大規模動的シーン探索を可能にするフレームワークである。
動的シーンの生成を段階的に拡大するアプローチを採っている。
論文 参考訳(メタデータ) (2025-03-13T17:42:01Z) - PointOdyssey: A Large-Scale Synthetic Dataset for Long-Term Point
Tracking [90.29143475328506]
本稿では,大規模合成データセットとデータ生成フレームワークであるPointOdysseyを紹介する。
私たちのゴールは、自然主義的な動きを持つ長いビデオに重点を置いて、最先端の技術を推し進めることです。
実世界のモーションキャプチャーデータを用いて変形可能なキャラクタをアニメーション化し、モーションキャプチャー環境に合わせて3Dシーンを構築し、リアルビデオ上で構造から抽出したトラジェクトリを用いてカメラ視点を描画する。
論文 参考訳(メタデータ) (2023-07-27T17:58:11Z) - ParticleSfM: Exploiting Dense Point Trajectories for Localizing Moving
Cameras in the Wild [57.37891682117178]
本稿では,一対の光流からの高密度対応に基づく動画の高密度間接構造抽出手法を提案する。
不規則点軌道データを処理するために,新しいニューラルネットワークアーキテクチャを提案する。
MPIシンテルデータセットを用いた実験により,我々のシステムはより正確なカメラ軌道を生成することがわかった。
論文 参考訳(メタデータ) (2022-07-19T09:19:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。