論文の概要: DiffusionCinema: Text-to-Aerial Cinematography
- arxiv url: http://arxiv.org/abs/2601.17412v1
- Date: Sat, 24 Jan 2026 11:12:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.933719
- Title: DiffusionCinema: Text-to-Aerial Cinematography
- Title(参考訳): DiffusionCinema:text-to-Aerial Cinematography
- Authors: Valerii Serpiva, Artem Lykov, Jeffrin Sam, Aleksey Fedoseev, Dzmitry Tsetserukou,
- Abstract要約: ドローンを手動で操縦する代わりに、ユーザーは望むショットを単純に記述する。
我々のシステムは、オンボードカメラからの初期の視覚的スナップショットと共にエンコードする。
生成された飛行軌道は、UAVによって自律的に実行される。
- 参考スコア(独自算出の注目度): 2.186077977059593
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel Unmanned Aerial Vehicles (UAV) assisted creative capture system that leverages diffusion models to interpret high-level natural language prompts and automatically generate optimal flight trajectories for cinematic video recording. Instead of manually piloting the drone, the user simply describes the desired shot (e.g., "orbit around me slowly from the right and reveal the background waterfall"). Our system encodes the prompt along with an initial visual snapshot from the onboard camera, and a diffusion model samples plausible spatio-temporal motion plans that satisfy both the scene geometry and shot semantics. The generated flight trajectory is then executed autonomously by the UAV to record smooth, repeatable video clips that match the prompt. User evaluation using NASA-TLX showed a significantly lower overall workload with our interface (M = 21.6) compared to a traditional remote controller (M = 58.1), demonstrating a substantial reduction in perceived effort. Mental demand (M = 11.5 vs. 60.5) and frustration (M = 14.0 vs. 54.5) were also markedly lower for our system, confirming clear usability advantages in autonomous text-driven flight control. This project demonstrates a new interaction paradigm: text-to-cinema flight, where diffusion models act as the "creative operator" converting story intentions directly into aerial motion.
- Abstract(参考訳): 本研究では,拡散モデルを利用して高レベルな自然言語プロンプトを解釈し,映像録画のための最適な飛行軌跡を自動生成する,無人航空機(UAV)による新規なクリエイティブキャプチャーシステムを提案する。
ドローンを手動で操縦する代わりに、ユーザーは単に望ましいショット(例えば、私の周りをゆっくり右から回り、背景の滝を明らかにする)を記述します。
本システムでは,このプロンプトと,搭載カメラからの初期の視覚的スナップショットをエンコードし,シーン形状とショットセマンティクスを満足する可視時空間運動プランを拡散モデルでサンプリングする。
生成された飛行軌道は、UAVによって自律的に実行され、プロンプトにマッチするスムーズで繰り返し可能なビデオクリップを記録する。
NASA-TLXを用いたユーザ評価では、従来のリモコン(M = 58.1)に比べて、インターフェース(M = 21.6)による全体的な作業負荷が大幅に低下し、認識される労力が大幅に削減された。
また,M = 11.5 vs. 60.5) とフラストレーション (M = 14.0 vs. 54.5) も有意に低かった。
本研究は,拡散モデルが物語の意図を直接空中運動に変換する「創造的オペレーター」として機能する,テキスト・トゥ・シネマ飛行という新たな相互作用パラダイムを実証する。
関連論文リスト
- MAD: Motion Appearance Decoupling for efficient Driving World Models [94.40548866741791]
本稿では,一般的な映像モデルを制御可能な運転世界モデルに変換する,効率的な適応フレームワークを提案する。
鍵となるアイデアは、外見合成からモーションラーニングを分離することである。
私たちのMAD-LTXモデルであるLTXへのスケーリングは、すべてのオープンソース競合より優れています。
論文 参考訳(メタデータ) (2026-01-14T12:52:23Z) - Real-Time Motion-Controllable Autoregressive Video Diffusion [79.32730467857535]
本稿では,AR-Dragを提案する。このAR-Dragは,多様なモーション制御を備えたリアルタイム画像・ビデオ生成のための,RLで拡張された最初の数ステップのARビデオ拡散モデルである。
まず,基本動作制御をサポートするためのベースI2Vモデルを微調整し,さらに軌道ベース報酬モデルによる強化により改良する。
本設計では、自己学習機構を通じてマルコフ特性を保存し、ステップを選択的に分解することで訓練を加速する。
論文 参考訳(メタデータ) (2025-10-09T12:17:11Z) - Vision-Language Modeling with Regularized Spatial Transformer Networks for All Weather Crosswind Landing of Aircraft [0.3749861135832073]
気象によって引き起こされる視覚劣化をクリアするために訓練された視覚ベースのシステムは、様々な気候条件下で堅牢な着陸データセットを必要とする。
本稿では,迅速な気候拡散ネットワークを訓練し,厳しい気象画像の合成を提案する。
また、新しい拡散蒸留損失を用いた気象蒸留モデルの最適化を行い、これらの視覚的劣化を解明する。
論文 参考訳(メタデータ) (2024-05-09T06:48:42Z) - TAFormer: A Unified Target-Aware Transformer for Video and Motion Joint Prediction in Aerial Scenes [14.924741503611749]
本研究では,ターゲット認識空中映像予測(Target-Aware Aerial Video Prediction)と呼ばれる新しいタスクを導入する。
本研究では,空間的静的な注意と時間的ダイナミックな注意にビデオダイナミクスの学習を分離し,シーンの外観と動きを効果的にモデル化する時空間的注意(STA)を紹介した。
ぼかし予測における目標の識別の難しさを軽減するため,ターゲット感性ガウス損失(TSGL)を導入し,目標の位置と内容の両方に対するモデルの感度を高める。
論文 参考訳(メタデータ) (2024-03-27T04:03:55Z) - ScatterNeRF: Seeing Through Fog with Physically-Based Inverse Neural
Rendering [83.75284107397003]
本稿では,シーンをレンダリングし,霧のない背景を分解するニューラルネットワークレンダリング手法であるScatterNeRFを紹介する。
本研究では,散乱量とシーンオブジェクトの非絡み合い表現を提案し,物理に着想を得た損失を伴ってシーン再構成を学習する。
マルチビューIn-the-Wildデータをキャプチャして,大規模な霧室内でのキャプチャを制御し,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-05-03T13:24:06Z) - Trace and Pace: Controllable Pedestrian Animation via Guided Trajectory
Diffusion [83.88829943619656]
本研究では,現実的な歩行者軌跡生成手法と,ユーザ定義目標を達成するために制御可能なフルボディアニメーションを提案する。
我々のガイド付き拡散モデルでは,対象とする経路,速度,特定社会集団による軌道の制約が可能である。
本稿では,アニメーションコントローラのRLトレーニング中に学習した値関数を用いて,拡散を誘導し,特定のシナリオに適した軌道を生成することを提案する。
論文 参考訳(メタデータ) (2023-04-04T15:46:42Z) - AirPose: Multi-View Fusion Network for Aerial 3D Human Pose and Shape
Estimation [51.17610485589701]
本研究では,非構造屋外環境のための新しいマーカーレス3次元モーションキャプチャ(MoCap)システムを提案する。
AirPoseは複数の無人飛行カメラで撮影された画像を使って人間のポーズと形状を推定する。
AirPose自体は、事前校正に頼らずに、人のカメラを校正する。
論文 参考訳(メタデータ) (2022-01-20T09:46:20Z) - CNN-based Visual Ego-Motion Estimation for Fast MAV Maneuvers [5.721124285238146]
高速移動する単眼カメラからの画像間の相対的なポーズを予測する畳み込みニューラルネットワーク(CNN)について検討する。
本研究のネットワークは, モデルサイズが小さく, 推論速度も高い。
トレーニングやテスト用の画像は、リアルな動きのぼやけがあります。
論文 参考訳(メタデータ) (2021-01-06T01:20:29Z) - Batteries, camera, action! Learning a semantic control space for
expressive robot cinematography [15.895161373307378]
我々は,意味空間における複雑なカメラ位置決めパラメータの編集を可能にする,データ駆動型フレームワークを開発した。
まず,写真実写シミュレータにおいて,多様な撮影範囲を持つ映像クリップのデータベースを作成する。
クラウドソーシングフレームワークには何百人もの参加者が参加して,各クリップのセマンティック記述子セットのスコアを取得しています。
論文 参考訳(メタデータ) (2020-11-19T21:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。