論文の概要: Learning Camera Movement Control from Real-World Drone Videos
- arxiv url: http://arxiv.org/abs/2412.09620v1
- Date: Thu, 12 Dec 2024 18:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:31:15.187114
- Title: Learning Camera Movement Control from Real-World Drone Videos
- Title(参考訳): 実世界のドローン映像からカメラの動きを学習する
- Authors: Yunzhong Hou, Liang Zheng, Philip Torr,
- Abstract要約: 既存のAIビデオ撮影手法は、シミュレーショントレーニングにおいて、外観の多様性が限られている。
実世界のトレーニングデータを収集するスケーラブルな手法を提案する。
本システムでは,カメラの動きを効果的に学習できることが示される。
- 参考スコア(独自算出の注目度): 25.10006841389459
- License:
- Abstract: This study seeks to automate camera movement control for filming existing subjects into attractive videos, contrasting with the creation of non-existent content by directly generating the pixels. We select drone videos as our test case due to their rich and challenging motion patterns, distinctive viewing angles, and precise controls. Existing AI videography methods struggle with limited appearance diversity in simulation training, high costs of recording expert operations, and difficulties in designing heuristic-based goals to cover all scenarios. To avoid these issues, we propose a scalable method that involves collecting real-world training data to improve diversity, extracting camera trajectories automatically to minimize annotation costs, and training an effective architecture that does not rely on heuristics. Specifically, we collect 99k high-quality trajectories by running 3D reconstruction on online videos, connecting camera poses from consecutive frames to formulate 3D camera paths, and using Kalman filter to identify and remove low-quality data. Moreover, we introduce DVGFormer, an auto-regressive transformer that leverages the camera path and images from all past frames to predict camera movement in the next frame. We evaluate our system across 38 synthetic natural scenes and 7 real city 3D scans. We show that our system effectively learns to perform challenging camera movements such as navigating through obstacles, maintaining low altitude to increase perceived speed, and orbiting towers and buildings, which are very useful for recording high-quality videos. Data and code are available at dvgformer.github.io.
- Abstract(参考訳): 本研究は,既存の被写体を映像化するためのカメラの動き制御を自動化することを目的として,画素を直接生成することで,既存のコンテンツの作成と対比する。
ドローンビデオは、リッチで挑戦的な動きパターン、独特の視角、正確な制御のために、テストケースとして選択します。
既存のAIビデオ撮影手法は、シミュレーショントレーニングにおける外観の多様性の制限、専門家操作の記録コストの高騰、そしてすべてのシナリオをカバーするヒューリスティックベースの目標を設計する際の困難さに苦慮している。
これらの問題を回避するために,実世界のトレーニングデータを収集して多様性を向上し,アノテーションコストを最小限に抑えるためにカメラトラジェクトリを自動的に抽出し,ヒューリスティックスに依存しない効果的なアーキテクチャを訓練する,スケーラブルな手法を提案する。
具体的には、オンラインビデオ上で3D再構成を行い、連続フレームからのカメラポーズを接続して3Dカメラパスを定式化し、Kalmanフィルタを用いて低品質データの識別と削除を行うことにより、99kの高品質な軌跡を収集する。
さらに、過去の全フレームからのカメラパスと画像を活用して、次のフレームにおけるカメラの動きを予測する自動回帰トランスフォーマーDVGFormerを紹介する。
我々は,38の合成自然シーンと7つの実都市3Dスキャンにまたがってシステムを評価した。
本システムは,障害物を通り抜ける,低高度を維持して認識速度を向上する,高画質ビデオを記録するのに非常に有用なタワーや建物を周回するといった,挑戦的なカメラの動きを効果的に学習することを示す。
データとコードはdvgformer.github.ioで入手できる。
関連論文リスト
- CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation [76.72787726497343]
CineMasterは3D認識と制御可能なテキスト・ビデオ生成のためのフレームワークである。
私たちのゴールは、プロの映画監督と同等のコントロール性を持つユーザーを力づけることです。
論文 参考訳(メタデータ) (2025-02-12T18:55:36Z) - Stereo4D: Learning How Things Move in 3D from Internet Stereo Videos [76.07894127235058]
本稿では,インターネットの立体視,広角ビデオから高品質な4D再構成をマイニングするシステムを提案する。
本研究では,この手法を用いて世界整合型擬似3次元点雲の形で大規模データを生成する。
DUSt3Rの変種をトレーニングし、実世界の画像対から構造と3次元運動を予測することで、このデータの有用性を実証する。
論文 参考訳(メタデータ) (2024-12-12T18:59:54Z) - MegaSaM: Accurate, Fast, and Robust Structure and Motion from Casual Dynamic Videos [104.1338295060383]
本研究では,ダイナミックシーンのカジュアルモノクラー映像から,カメラパラメータと奥行きマップの精度,高速,堅牢な推定を可能にするシステムを提案する。
本システムは,先行作業や同時作業と比較して,カメラポーズや深度推定において有意に精度が高く,頑健である。
論文 参考訳(メタデータ) (2024-12-05T18:59:42Z) - AC3D: Analyzing and Improving 3D Camera Control in Video Diffusion Transformers [66.29824750770389]
カメラの動きを第一原理の観点から分析し、正確な3Dカメラ操作を可能にする洞察を明らかにする。
これらの知見を合成して、高度な3Dカメラ制御(AC3D)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2024-11-27T18:49:13Z) - ChatCam: Empowering Camera Control through Conversational AI [67.31920821192323]
ChatCamは、ユーザーとの会話を通じてカメラの動きをナビゲートするシステムである。
そこで本研究では,テキスト条件付きカメラ軌道生成のためのGPTに基づく自己回帰モデルであるCineGPTを提案する。
また、正確なカメラ軌道配置を保証するアンカー決定器も開発した。
論文 参考訳(メタデータ) (2024-09-25T20:13:41Z) - Image Conductor: Precision Control for Interactive Video Synthesis [90.2353794019393]
映画製作とアニメーション制作は、しばしばカメラの遷移と物体の動きを調整するための洗練された技術を必要とする。
イメージコンダクタ(Image Conductor)は、カメラトランジションとオブジェクトの動きを正確に制御し、単一の画像からビデオアセットを生成する方法である。
論文 参考訳(メタデータ) (2024-06-21T17:55:05Z) - 3D Human Reconstruction in the Wild with Collaborative Aerial Cameras [3.3674370488883434]
本研究では,自然環境下での人体の動きを,専用マーカーを使わずに再現できるマルチカメラ制御のためのリアルタイム航空システムを提案する。
本研究では,障害物間における目標再構成品質を最適に設定するマルチロボット調整手法を開発した。
論文 参考訳(メタデータ) (2021-08-09T11:03:38Z) - Reconstruction of 3D flight trajectories from ad-hoc camera networks [19.96488566402593]
本研究では,空飛ぶロボットシステムの3次元軌道を,同期しないカメラで撮影した映像から再構成する手法を提案する。
我々のアプローチは、安価で容易に配備できる装置を用いて、動的に飛来する目標の堅牢かつ正確な外部からの追跡を可能にする。
論文 参考訳(メタデータ) (2020-03-10T14:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。