論文の概要: LensCraft: Your Professional Virtual Cinematographer
- arxiv url: http://arxiv.org/abs/2506.00988v1
- Date: Sun, 01 Jun 2025 12:43:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.887914
- Title: LensCraft: Your Professional Virtual Cinematographer
- Title(参考訳): LensCraft: プロのバーチャルシネマトグラフィー
- Authors: Zahra Dehghanian, Morteza Abolghasemi, Hossein Azizinaghsh, Amir Vahedi, Hamid Beigy, Hamid R. Rabiee,
- Abstract要約: インディーの映画製作者からアニメーションスタジオまで、デジタルクリエイターたちは、創造的なビジョンを正確にカメラの動きに変換するという、永続的なボトルネックに直面している。
LensCraftは、データ駆動アプローチを使用して、プロの撮影技師の専門知識を模倣することで、この問題を解決する。
LensCraftは、高い出力品質を維持しながら、計算の複雑さを著しく低減し、推論を高速化する。
- 参考スコア(独自算出の注目度): 12.512681517449868
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Digital creators, from indie filmmakers to animation studios, face a persistent bottleneck: translating their creative vision into precise camera movements. Despite significant progress in computer vision and artificial intelligence, current automated filming systems struggle with a fundamental trade-off between mechanical execution and creative intent. Crucially, almost all previous works simplify the subject to a single point-ignoring its orientation and true volume-severely limiting spatial awareness during filming. LensCraft solves this problem by mimicking the expertise of a professional cinematographer, using a data-driven approach that combines cinematographic principles with the flexibility to adapt to dynamic scenes in real time. Our solution combines a specialized simulation framework for generating high-fidelity training data with an advanced neural model that is faithful to the script while being aware of the volume and dynamic behavior of the subject. Additionally, our approach allows for flexible control via various input modalities, including text prompts, subject trajectory and volume, key points, or a full camera trajectory, offering creators a versatile tool to guide camera movements in line with their vision. Leveraging a lightweight real time architecture, LensCraft achieves markedly lower computational complexity and faster inference while maintaining high output quality. Extensive evaluation across static and dynamic scenarios reveals unprecedented accuracy and coherence, setting a new benchmark for intelligent camera systems compared to state-of-the-art models. Extended results, the complete dataset, simulation environment, trained model weights, and source code are publicly accessible on LensCraft Webpage.
- Abstract(参考訳): インディーの映画製作者からアニメーションスタジオまで、デジタルクリエイターたちは、創造的なビジョンを正確にカメラの動きに変換するという、永続的なボトルネックに直面している。
コンピュータビジョンと人工知能の進歩にもかかわらず、現在の自動撮影システムは機械的実行と創造的意図の基本的なトレードオフに悩まされている。
重要なことに、これまでのほぼ全ての作品では、その方向を無視し、撮影中に空間的意識を著しく制限する単一点の主題を単純化している。
LensCraftはこの問題を解決するために、プロの撮影技師の専門知識を模倣し、撮影原理と動的シーンにリアルタイムで適応する柔軟性を組み合わせたデータ駆動のアプローチを採用している。
提案手法は,高忠実度トレーニングデータを生成するための特殊なシミュレーションフレームワークと,被験者の容積と動的挙動を認識しつつ,スクリプトに忠実な高度なニューラルモデルを組み合わせる。
さらに,本手法では,テキストプロンプト,主題の軌跡と音量,キーポイント,フルカメラの軌跡など,様々な入力モダリティによるフレキシブルな制御が可能であり,カメラの動きを視覚に合わせてガイドする汎用的なツールを提供する。
軽量なリアルタイムアーキテクチャを活用することで、高い出力品質を維持しながら、計算の複雑さを著しく低減し、推論の高速化を実現します。
静的および動的シナリオにわたる広範囲な評価は、前例のない精度とコヒーレンスを示し、最先端のモデルと比較してインテリジェントカメラシステムのための新しいベンチマークを設定している。
拡張された結果、完全なデータセット、シミュレーション環境、トレーニングされたモデルの重み付け、ソースコードはLensCraft Webページで公開されている。
関連論文リスト
- Towards Understanding Camera Motions in Any Video [80.223048294482]
我々は、カメラモーション理解の評価と改善を目的とした大規模なデータセットとベンチマークであるCameraBenchを紹介する。
CameraBenchは、厳格な品質管理プロセスを通じて専門家によって注釈付けされた3,000の多様なインターネットビデオで構成されている。
私たちの貢献の1つは、撮影者との共同で設計されたカメラモーションプリミティブの分類である。
論文 参考訳(メタデータ) (2025-04-21T18:34:57Z) - GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography [98.28272367169465]
本稿では,写真監督の専門知識にインスパイアされた自己回帰モデルを導入し,芸術的かつ表現的なカメラトラジェクトリを生成する。
包括的で多様なデータベースのおかげで、高品質でコンテキスト対応のカメラムーブメント生成のための自動回帰デコーダのみのトランスフォーマーをトレーニングします。
実験により、既存の手法と比較して、GenDoPはより良い制御性、よりきめ細かい軌道調整、より高い運動安定性を提供することが示された。
論文 参考訳(メタデータ) (2025-04-09T17:56:01Z) - FRAME: Floor-aligned Representation for Avatar Motion from Egocentric Video [52.33896173943054]
ヘッドマウントのボディフェイスステレオカメラを備えたエゴセントリックなモーションキャプチャーは、VRやARアプリケーションには不可欠だ。
既存の方法は、合成事前学習と、現実の環境で滑らかで正確な予測を生成するのに苦労している。
本稿では、デバイスポーズとカメラフィードを組み合わせて、最先端のボディポーズ予測を行う、シンプルで効果的なアーキテクチャFRAMEを提案する。
論文 参考訳(メタデータ) (2025-03-29T14:26:06Z) - CinePreGen: Camera Controllable Video Previsualization via Engine-powered Diffusion [29.320516135326546]
CinePreGenは、エンジン駆動の拡散で強化された視覚前処理システムである。
グローバルなカメラ調整からローカルなカメラ調整まで、ダイナミックなコントロールを提供する新しいカメラとストーリーボードインターフェースを備えている。
論文 参考訳(メタデータ) (2024-08-30T17:16:18Z) - Generative Camera Dolly: Extreme Monocular Dynamic Novel View Synthesis [43.02778060969546]
制御可能な単分子動的ビュー合成パイプラインを提案する。
我々のモデルは入力として深度を必要としないし、明示的に3次元シーン形状をモデル化しない。
私たちのフレームワークは、リッチな動的シーン理解、ロボット工学の知覚、バーチャルリアリティのためのインタラクティブな3Dビデオ視聴体験において、強力なアプリケーションをアンロックできる可能性があると考えています。
論文 参考訳(メタデータ) (2024-05-23T17:59:52Z) - DynIBaR: Neural Dynamic Image-Based Rendering [79.44655794967741]
複雑な動的シーンを描写したモノクロ映像から新しいビューを合成する問題に対処する。
我々は,近傍のビューから特徴を集約することで,新しい視点を合成するボリューム画像ベースのレンダリングフレームワークを採用する。
動的シーンデータセットにおける最先端手法の大幅な改善を示す。
論文 参考訳(メタデータ) (2022-11-20T20:57:02Z) - Batteries, camera, action! Learning a semantic control space for
expressive robot cinematography [15.895161373307378]
我々は,意味空間における複雑なカメラ位置決めパラメータの編集を可能にする,データ駆動型フレームワークを開発した。
まず,写真実写シミュレータにおいて,多様な撮影範囲を持つ映像クリップのデータベースを作成する。
クラウドソーシングフレームワークには何百人もの参加者が参加して,各クリップのセマンティック記述子セットのスコアを取得しています。
論文 参考訳(メタデータ) (2020-11-19T21:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。