論文の概要: Batteries, camera, action! Learning a semantic control space for
expressive robot cinematography
- arxiv url: http://arxiv.org/abs/2011.10118v2
- Date: Wed, 31 Mar 2021 21:15:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 20:51:27.107363
- Title: Batteries, camera, action! Learning a semantic control space for
expressive robot cinematography
- Title(参考訳): バッテリー、カメラ、アクション!
表現型ロボット撮影のための意味制御空間の学習
- Authors: Rogerio Bonatti, Arthur Bucker, Sebastian Scherer, Mustafa Mukadam and
Jessica Hodgins
- Abstract要約: 我々は,意味空間における複雑なカメラ位置決めパラメータの編集を可能にする,データ駆動型フレームワークを開発した。
まず,写真実写シミュレータにおいて,多様な撮影範囲を持つ映像クリップのデータベースを作成する。
クラウドソーシングフレームワークには何百人もの参加者が参加して,各クリップのセマンティック記述子セットのスコアを取得しています。
- 参考スコア(独自算出の注目度): 15.895161373307378
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aerial vehicles are revolutionizing the way film-makers can capture shots of
actors by composing novel aerial and dynamic viewpoints. However, despite great
advancements in autonomous flight technology, generating expressive camera
behaviors is still a challenge and requires non-technical users to edit a large
number of unintuitive control parameters. In this work, we develop a
data-driven framework that enables editing of these complex camera positioning
parameters in a semantic space (e.g. calm, enjoyable, establishing). First, we
generate a database of video clips with a diverse range of shots in a
photo-realistic simulator, and use hundreds of participants in a crowd-sourcing
framework to obtain scores for a set of semantic descriptors for each clip.
Next, we analyze correlations between descriptors and build a semantic control
space based on cinematography guidelines and human perception studies. Finally,
we learn a generative model that can map a set of desired semantic video
descriptors into low-level camera trajectory parameters. We evaluate our system
by demonstrating that our model successfully generates shots that are rated by
participants as having the expected degrees of expression for each descriptor.
We also show that our models generalize to different scenes in both simulation
and real-world experiments. Data and video found at:
https://sites.google.com/view/robotcam.
- Abstract(参考訳): 航空車両は、新しい空中とダイナミックな視点を作り上げることで、映画製作者が俳優を撮影する方法に革命をもたらしている。
しかし、自律飛行技術の進歩にもかかわらず、表現力のあるカメラの動作を生成することは依然として課題であり、非技術ユーザーは多数の直感的な制御パラメータを編集する必要がある。
本研究では,これらの複雑なカメラ位置決めパラメータをセマンティクス空間(例えば,落ち着き,楽しみ,確立)で編集できるデータ駆動型フレームワークを開発した。
まず,写真実写シミュレータで多種多様なショットを収録したビデオクリップのデータベースを作成し,クラウドソーシングフレームワークで何百人もの参加者を用いて,各クリップのセマンティック記述子セットのスコアを取得する。
次に,ディスクリプタ間の相関を分析し,シネマトグラフィーガイドラインと人間の知覚研究に基づいて意味的制御空間を構築する。
最後に、所望のセマンティックビデオ記述子の集合を低レベルのカメラ軌道パラメータにマッピングできる生成モデルについて学習する。
提案システムは,各記述子に対して期待できる表現度を有するとして,参加者が評価したショットを,モデルが生成できることを実証することによって評価する。
また,シミュレーションと実世界の実験の両方において,モデルが異なる場面に一般化することを示した。
データとビデオはhttps://sites.google.com/view/robotcam.comにある。
関連論文リスト
- ChatCam: Empowering Camera Control through Conversational AI [67.31920821192323]
ChatCamは、ユーザーとの会話を通じてカメラの動きをナビゲートするシステムである。
そこで本研究では,テキスト条件付きカメラ軌道生成のためのGPTに基づく自己回帰モデルであるCineGPTを提案する。
また、正確なカメラ軌道配置を保証するアンカー決定器も開発した。
論文 参考訳(メタデータ) (2024-09-25T20:13:41Z) - Redundancy-Aware Camera Selection for Indoor Scene Neural Rendering [54.468355408388675]
カメラの空間的多様性と画像の意味的変動の両方を取り入れた類似度行列を構築した。
カメラ選択を最適化するために,多様性に基づくサンプリングアルゴリズムを適用した。
IndoorTrajという新しいデータセットも開発しています。仮想屋内環境で人間が捉えた、長くて複雑なカメラの動きが含まれています。
論文 参考訳(メタデータ) (2024-09-11T08:36:49Z) - Image Conductor: Precision Control for Interactive Video Synthesis [90.2353794019393]
映画製作とアニメーション制作は、しばしばカメラの遷移と物体の動きを調整するための洗練された技術を必要とする。
イメージコンダクタ(Image Conductor)は、カメラトランジションとオブジェクトの動きを正確に制御し、単一の画像からビデオアセットを生成する方法である。
論文 参考訳(メタデータ) (2024-06-21T17:55:05Z) - Learning Semantic Traversability with Egocentric Video and Automated Annotation Strategy [3.713586225621126]
ロボットは、シーンのセマンティック理解に基づいて、画像内のセマンティック・トラバース可能な地形を識別する能力を持つ必要がある。
この推論能力はセマンティックトラバーサビリティに基づいており、テストドメイン上で微調整されたセマンティックセグメンテーションモデルを使用して頻繁に達成される。
本稿では,エゴセントリックなビデオと自動アノテーションプロセスを用いて,セマンティック・トラバーサビリティ推定器を訓練するための効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-06-05T06:40:04Z) - Generative Camera Dolly: Extreme Monocular Dynamic Novel View Synthesis [43.02778060969546]
制御可能な単分子動的ビュー合成パイプラインを提案する。
我々のモデルは入力として深度を必要としないし、明示的に3次元シーン形状をモデル化しない。
私たちのフレームワークは、リッチな動的シーン理解、ロボット工学の知覚、バーチャルリアリティのためのインタラクティブな3Dビデオ視聴体験において、強力なアプリケーションをアンロックできる可能性があると考えています。
論文 参考訳(メタデータ) (2024-05-23T17:59:52Z) - Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。
私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。
学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:56:55Z) - Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - PathFinder: Attention-Driven Dynamic Non-Line-of-Sight Tracking with a Mobile Robot [3.387892563308912]
注目型ニューラルネットワークを用いてLOS(Line-of-sight)ビデオにおける動的逐次フレームのシーケンスを処理する新しい手法を提案する。
我々は,映像撮影のためのドローンによる現場撮影のアプローチを検証し,ダイナミックキャプチャ環境での低コストなNLOSイメージングを実証した。
論文 参考訳(メタデータ) (2024-04-07T17:31:53Z) - Lift, Splat, Shoot: Encoding Images From Arbitrary Camera Rigs by
Implicitly Unprojecting to 3D [100.93808824091258]
本稿では,任意の数のカメラから映像データを与えられたシーンの鳥眼ビュー表現を直接抽出するエンド・ツー・エンドアーキテクチャを提案する。
我々のアプローチは、それぞれの画像をそれぞれのカメラのフラストラムに個別に“リフト”し、すべてのフラストラムを鳥の目視格子に“プレート”することです。
提案モデルにより推定される表現は,テンプレートトラジェクトリを鳥眼ビューのコストマップに"撮影"することで,終末動作計画の解釈を可能にすることを示す。
論文 参考訳(メタデータ) (2020-08-13T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。