論文の概要: Auteur: Language-Driven Cinematographic Framing for Human-Centric Video Generation
- arxiv url: http://arxiv.org/abs/2606.01900v1
- Date: Mon, 01 Jun 2026 08:41:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.623595
- Title: Auteur: Language-Driven Cinematographic Framing for Human-Centric Video Generation
- Title(参考訳): Auteur:人間中心のビデオ生成のための言語駆動シネマトグラフィー・フレーミング
- Authors: Muhammed Burak Kizil, Enes Sanli, Niloy J. Mitra, Xuelin Chen, Erkut Erdem, Aykut Erdem, Duygu Ceylan,
- Abstract要約: 生成ビデオにおける言語駆動型人中心カメラフレーミングの手法であるAuteurを提案する。
Auteurは、人中心のシーンの撮影フレーミングを可能にする。
- 参考スコア(独自算出の注目度): 48.49793109378558
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative video models have achieved remarkable visual fidelity and temporal coherence, yet intentional camera control remains elusive. Existing frameworks treat camera motion as a byproduct of pixel synthesis, producing trajectories that are stochastic, spatially inconsistent, and indifferent to the human subject driving the scene. In this work, we present Auteur, a method for language-driven, human-centric camera framing in generative video. Our core insight is that professional filmmakers conceive shots not as world-space trajectories but as framings defined relative to the actor, encoding shot size, angle, and composition as functions of human pose and motion. We formalize this intuition as a human-centric camera parameterization and introduce a Domain-Specific Language (DSL) that is convertible to standard 6-DoF camera parameters. A fine-tuned multimodal large language model then acts as a virtual director, mapping natural language descriptions and coarse human motion to sparse DSL keyframes that are deterministically interpolated into continuous camera trajectories, which are then provided as input to video generators. We train and evaluate Auteur on a new dataset of 34K aligned text, human motion, and DSL-annotated camera trajectories drawn from procedural synthesis and real-world movie footage from the CondensedMovies dataset. Auteur enables cinematographic framing of human-centered scenes, a capability largely absent in prior generative models. To assess this behavior, we propose new framing-focused metrics, and our experiments show that Auteur consistently outperforms existing methods
- Abstract(参考訳): 生成ビデオモデルは目覚ましい視覚的忠実さと時間的コヒーレンスを実現しているが、意図的なカメラ制御はいまだ解明されていない。
既存のフレームワークは、カメラの動きをピクセル合成の副産物として扱い、確率的で空間的に一貫性がなく、シーンを駆動する人間の対象に無関心な軌跡を生成する。
本研究では、生成ビデオにおける言語駆動型人間中心カメラフレーミングの手法であるAuteurを紹介する。
私たちの中核的な洞察は、プロの映画製作者は、撮影を世界空間の軌跡ではなく、俳優に対するフレーミングとして捉え、人間のポーズや動きの関数としてショットのサイズ、角度、構成をエンコードしているということです。
我々は、この直観を人間中心のカメラパラメータ化として形式化し、標準的な6-DoFカメラパラメータに変換可能なドメイン特化言語(DSL)を導入する。
微調整されたマルチモーダルな大言語モデルは仮想ディレクタとして機能し、自然言語記述と粗い人間の動きを分離したDSLキーフレームにマッピングし、決定論的に連続したカメラトラジェクトリに補間し、ビデオジェネレータへの入力として提供される。
我々は、Auteurを、手続き的な合成とCondensedMoviesデータセットからの実世界の映像から引き出された34Kのテキスト、人間の動き、デジタル一眼レフカメラの軌跡の新しいデータセットで訓練し、評価する。
Auteurは、人中心のシーンの撮影フレーミングを可能にする。
この振る舞いを評価するために、フレーミングに焦点を当てた新しい指標を提案し、実験により、Auteurが既存の手法より一貫して優れていることを示す。
関連論文リスト
- Towards Understanding Camera Motions in Any Video [89.97247162415158]
我々は、カメラモーション理解の評価と改善を目的とした大規模なデータセットとベンチマークであるCameraBenchを紹介する。
CameraBenchは、厳格な品質管理プロセスを通じて専門家によって注釈付けされた3,000の多様なインターネットビデオで構成されている。
私たちの貢献の1つは、撮影者との共同で設計されたカメラモーションプリミティブの分類である。
論文 参考訳(メタデータ) (2025-04-21T18:34:57Z) - GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography [98.28272367169465]
本稿では,写真監督の専門知識にインスパイアされた自己回帰モデルを導入し,芸術的かつ表現的なカメラトラジェクトリを生成する。
包括的で多様なデータベースのおかげで、高品質でコンテキスト対応のカメラムーブメント生成のための自動回帰デコーダのみのトランスフォーマーをトレーニングします。
実験により、既存の手法と比較して、GenDoPはより良い制御性、よりきめ細かい軌道調整、より高い運動安定性を提供することが示された。
論文 参考訳(メタデータ) (2025-04-09T17:56:01Z) - ChatCam: Empowering Camera Control through Conversational AI [67.31920821192323]
ChatCamは、ユーザーとの会話を通じてカメラの動きをナビゲートするシステムである。
そこで本研究では,テキスト条件付きカメラ軌道生成のためのGPTに基づく自己回帰モデルであるCineGPTを提案する。
また、正確なカメラ軌道配置を保証するアンカー決定器も開発した。
論文 参考訳(メタデータ) (2024-09-25T20:13:41Z) - HumanNeRF: Free-viewpoint Rendering of Moving People from Monocular
Video [44.58519508310171]
我々は、人間の複雑な身体の動きを観察するモノクラービデオで動作する、自由視点レンダリング手法、HumanNeRFを紹介した。
提案手法は,任意のフレームで動画をパージングし,任意のカメラ視点から被写体をレンダリングする。
論文 参考訳(メタデータ) (2022-01-11T18:51:21Z) - Batteries, camera, action! Learning a semantic control space for
expressive robot cinematography [15.895161373307378]
我々は,意味空間における複雑なカメラ位置決めパラメータの編集を可能にする,データ駆動型フレームワークを開発した。
まず,写真実写シミュレータにおいて,多様な撮影範囲を持つ映像クリップのデータベースを作成する。
クラウドソーシングフレームワークには何百人もの参加者が参加して,各クリップのセマンティック記述子セットのスコアを取得しています。
論文 参考訳(メタデータ) (2020-11-19T21:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。