論文の概要: Towards Understanding Camera Motions in Any Video
- arxiv url: http://arxiv.org/abs/2504.15376v1
- Date: Mon, 21 Apr 2025 18:34:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-01 01:49:09.885138
- Title: Towards Understanding Camera Motions in Any Video
- Title(参考訳): あらゆるビデオにおけるカメラモーションの理解に向けて
- Authors: Zhiqiu Lin, Siyuan Cen, Daniel Jiang, Jay Karhade, Hewei Wang, Chancharik Mitra, Tiffany Ling, Yuhan Huang, Sifan Liu, Mingyu Chen, Rushikesh Zawar, Xue Bai, Yilun Du, Chuang Gan, Deva Ramanan,
- Abstract要約: 我々は、カメラモーション理解の評価と改善を目的とした大規模なデータセットとベンチマークであるCameraBenchを紹介する。
CameraBenchは、厳格な品質管理プロセスを通じて専門家によって注釈付けされた3,000の多様なインターネットビデオで構成されている。
私たちの貢献の1つは、撮影者との共同で設計されたカメラモーションプリミティブの分類である。
- 参考スコア(独自算出の注目度): 80.223048294482
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce CameraBench, a large-scale dataset and benchmark designed to assess and improve camera motion understanding. CameraBench consists of ~3,000 diverse internet videos, annotated by experts through a rigorous multi-stage quality control process. One of our contributions is a taxonomy of camera motion primitives, designed in collaboration with cinematographers. We find, for example, that some motions like "follow" (or tracking) require understanding scene content like moving subjects. We conduct a large-scale human study to quantify human annotation performance, revealing that domain expertise and tutorial-based training can significantly enhance accuracy. For example, a novice may confuse zoom-in (a change of intrinsics) with translating forward (a change of extrinsics), but can be trained to differentiate the two. Using CameraBench, we evaluate Structure-from-Motion (SfM) and Video-Language Models (VLMs), finding that SfM models struggle to capture semantic primitives that depend on scene content, while VLMs struggle to capture geometric primitives that require precise estimation of trajectories. We then fine-tune a generative VLM on CameraBench to achieve the best of both worlds and showcase its applications, including motion-augmented captioning, video question answering, and video-text retrieval. We hope our taxonomy, benchmark, and tutorials will drive future efforts towards the ultimate goal of understanding camera motions in any video.
- Abstract(参考訳): 我々は、カメラモーション理解の評価と改善を目的とした大規模なデータセットとベンチマークであるCameraBenchを紹介する。
CameraBenchは3000の多様なインターネットビデオで構成され、厳格なマルチステージ品質管理プロセスを通じて専門家によって注釈付けされている。
私たちの貢献の1つは、撮影者との共同で設計されたカメラモーションプリミティブの分類である。
例えば、"フォロー"(あるいは追跡)のような動きには、移動中の被写体のようなシーンの内容を理解する必要があります。
我々は、人間のアノテーション性能を定量化するために大規模な人間研究を行い、ドメインの専門知識とチュートリアルベースのトレーニングが精度を大幅に向上することを明らかにする。
例えば、初心者はズームイン(内在性の変化)と前進性(外在性の変化)を混同することがあるが、両者を区別するように訓練することができる。
CameraBenchを用いて、SfM(Structure-from-Motion)とVLM(Video-Language Models)を評価し、SfMモデルはシーン内容に依存するセマンティックプリミティブを捉えるのに苦労し、VLMは軌跡の正確な推定を必要とする幾何学的プリミティブを捉えるのに苦労している。
次に、CameraBench上の生成VLMを微調整して、両方の世界の長所を達成し、モーション強化キャプション、ビデオ質問応答、ビデオテキスト検索など、その応用を披露する。
われわれの分類学、ベンチマーク、チュートリアルが、どんなビデオでもカメラの動きを理解するという究極の目標に向けて、今後の努力を加速させることを願っている。
関連論文リスト
- CamMimic: Zero-Shot Image To Camera Motion Personalized Video Generation Using Diffusion Models [47.65379612084075]
CamMimicは、所定のリファレンスビデオで観察されたカメラモーションを、ユーザの選択したシーンにシームレスに転送するように設計されている。
非関連シーン間のカメラの動き伝達を評価するための確立された指標が存在しないため,CameraScoreを提案する。
論文 参考訳(メタデータ) (2025-04-13T08:04:11Z) - GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography [98.28272367169465]
本稿では,写真監督の専門知識にインスパイアされた自己回帰モデルを導入し,芸術的かつ表現的なカメラトラジェクトリを生成する。
包括的で多様なデータベースのおかげで、高品質でコンテキスト対応のカメラムーブメント生成のための自動回帰デコーダのみのトランスフォーマーをトレーニングします。
実験により、既存の手法と比較して、GenDoPはより良い制御性、よりきめ細かい軌道調整、より高い運動安定性を提供することが示された。
論文 参考訳(メタデータ) (2025-04-09T17:56:01Z) - AnyCam: Learning to Recover Camera Poses and Intrinsics from Casual Videos [52.726585508669686]
我々は,動的ビデオシーケンスからカメラのポーズと内在性を直接推定する高速トランスフォーマーモデルであるAnyCamを提案する。
確立したデータセット上でAnyCamをテストし、質的にも量的にも正確なカメラポーズと本質的な機能を提供します。
カメラ情報、不確実性、深さを組み合わせることで、我々のモデルは高品質な4Dポイントクラウドを作り出すことができる。
論文 参考訳(メタデータ) (2025-03-30T02:22:11Z) - ReCamMaster: Camera-Controlled Generative Rendering from A Single Video [72.42376733537925]
ReCamMasterは、カメラ制御された生成ビデオの再レンダリングフレームワークである。
これは、新しいカメラ軌道における入力ビデオのダイナミックなシーンを再現する。
また,ビデオの安定化,超高解像度化,画質向上に有望な応用を見出した。
論文 参考訳(メタデータ) (2025-03-14T17:59:31Z) - MotionBench: Benchmarking and Improving Fine-grained Video Motion Understanding for Vision Language Models [30.139277087078764]
MotionBenchは、ビデオ理解モデルの詳細な動作理解を評価するために設計された評価ベンチマークである。
さまざまなソースから収集されたデータが含まれており、現実世界のビデオコンテンツの広範な表現が保証されている。
我々のベンチマークは、より有能な映像理解モデルの開発をガイドし、動機づけることを目的としている。
論文 参考訳(メタデータ) (2025-01-06T11:57:38Z) - ChatCam: Empowering Camera Control through Conversational AI [67.31920821192323]
ChatCamは、ユーザーとの会話を通じてカメラの動きをナビゲートするシステムである。
そこで本研究では,テキスト条件付きカメラ軌道生成のためのGPTに基づく自己回帰モデルであるCineGPTを提案する。
また、正確なカメラ軌道配置を保証するアンカー決定器も開発した。
論文 参考訳(メタデータ) (2024-09-25T20:13:41Z) - Image Conductor: Precision Control for Interactive Video Synthesis [90.2353794019393]
映画製作とアニメーション制作は、しばしばカメラの遷移と物体の動きを調整するための洗練された技術を必要とする。
イメージコンダクタ(Image Conductor)は、カメラトランジションとオブジェクトの動きを正確に制御し、単一の画像からビデオアセットを生成する方法である。
論文 参考訳(メタデータ) (2024-06-21T17:55:05Z) - Batteries, camera, action! Learning a semantic control space for
expressive robot cinematography [15.895161373307378]
我々は,意味空間における複雑なカメラ位置決めパラメータの編集を可能にする,データ駆動型フレームワークを開発した。
まず,写真実写シミュレータにおいて,多様な撮影範囲を持つ映像クリップのデータベースを作成する。
クラウドソーシングフレームワークには何百人もの参加者が参加して,各クリップのセマンティック記述子セットのスコアを取得しています。
論文 参考訳(メタデータ) (2020-11-19T21:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。