Fugu-MT 論文翻訳(概要): Batteries, camera, action! Learning a semantic control space for expressive robot cinematography

論文の概要: Batteries, camera, action! Learning a semantic control space for expressive robot cinematography

arxiv url: http://arxiv.org/abs/2011.10118v2
Date: Wed, 31 Mar 2021 21:15:21 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-23 20:51:27.107363
Title: Batteries, camera, action! Learning a semantic control space for expressive robot cinematography
Title（参考訳）: バッテリー、カメラ、アクション! 表現型ロボット撮影のための意味制御空間の学習
Authors: Rogerio Bonatti, Arthur Bucker, Sebastian Scherer, Mustafa Mukadam and Jessica Hodgins
Abstract要約: 我々は,意味空間における複雑なカメラ位置決めパラメータの編集を可能にする,データ駆動型フレームワークを開発した。まず,写真実写シミュレータにおいて,多様な撮影範囲を持つ映像クリップのデータベースを作成する。クラウドソーシングフレームワークには何百人もの参加者が参加して,各クリップのセマンティック記述子セットのスコアを取得しています。
参考スコア（独自算出の注目度）: 15.895161373307378
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Aerial vehicles are revolutionizing the way film-makers can capture shots of actors by composing novel aerial and dynamic viewpoints. However, despite great advancements in autonomous flight technology, generating expressive camera behaviors is still a challenge and requires non-technical users to edit a large number of unintuitive control parameters. In this work, we develop a data-driven framework that enables editing of these complex camera positioning parameters in a semantic space (e.g. calm, enjoyable, establishing). First, we generate a database of video clips with a diverse range of shots in a photo-realistic simulator, and use hundreds of participants in a crowd-sourcing framework to obtain scores for a set of semantic descriptors for each clip. Next, we analyze correlations between descriptors and build a semantic control space based on cinematography guidelines and human perception studies. Finally, we learn a generative model that can map a set of desired semantic video descriptors into low-level camera trajectory parameters. We evaluate our system by demonstrating that our model successfully generates shots that are rated by participants as having the expected degrees of expression for each descriptor. We also show that our models generalize to different scenes in both simulation and real-world experiments. Data and video found at: https://sites.google.com/view/robotcam.
Abstract（参考訳）: 航空車両は、新しい空中とダイナミックな視点を作り上げることで、映画製作者が俳優を撮影する方法に革命をもたらしている。しかし、自律飛行技術の進歩にもかかわらず、表現力のあるカメラの動作を生成することは依然として課題であり、非技術ユーザーは多数の直感的な制御パラメータを編集する必要がある。本研究では,これらの複雑なカメラ位置決めパラメータをセマンティクス空間(例えば,落ち着き,楽しみ,確立)で編集できるデータ駆動型フレームワークを開発した。まず,写真実写シミュレータで多種多様なショットを収録したビデオクリップのデータベースを作成し,クラウドソーシングフレームワークで何百人もの参加者を用いて,各クリップのセマンティック記述子セットのスコアを取得する。次に,ディスクリプタ間の相関を分析し,シネマトグラフィーガイドラインと人間の知覚研究に基づいて意味的制御空間を構築する。最後に、所望のセマンティックビデオ記述子の集合を低レベルのカメラ軌道パラメータにマッピングできる生成モデルについて学習する。提案システムは,各記述子に対して期待できる表現度を有するとして,参加者が評価したショットを,モデルが生成できることを実証することによって評価する。また,シミュレーションと実世界の実験の両方において,モデルが異なる場面に一般化することを示した。データとビデオはhttps://sites.google.com/view/robotcam.comにある。

関連論文リスト

Towards Understanding Camera Motions in Any Video [80.223048294482]
我々は、カメラモーション理解の評価と改善を目的とした大規模なデータセットとベンチマークであるCameraBenchを紹介する。 CameraBenchは、厳格な品質管理プロセスを通じて専門家によって注釈付けされた3,000の多様なインターネットビデオで構成されている。私たちの貢献の1つは、撮影者との共同で設計されたカメラモーションプリミティブの分類である。
論文参考訳（メタデータ） (2025-04-21T18:34:57Z)
GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography [98.28272367169465]
本稿では,写真監督の専門知識にインスパイアされた自己回帰モデルを導入し,芸術的かつ表現的なカメラトラジェクトリを生成する。包括的で多様なデータベースのおかげで、高品質でコンテキスト対応のカメラムーブメント生成のための自動回帰デコーダのみのトランスフォーマーをトレーニングします。実験により、既存の手法と比較して、GenDoPはより良い制御性、よりきめ細かい軌道調整、より高い運動安定性を提供することが示された。
論文参考訳（メタデータ） (2025-04-09T17:56:01Z)
CameraCtrl II: Dynamic Scene Exploration via Camera-controlled Video Diffusion Models [89.63787060844409]
CameraCtrl IIは、カメラ制御ビデオ拡散モデルによる大規模動的シーン探索を可能にするフレームワークである。動的シーンの生成を段階的に拡大するアプローチを採っている。
論文参考訳（メタデータ） (2025-03-13T17:42:01Z)
ChatCam: Empowering Camera Control through Conversational AI [67.31920821192323]
ChatCamは、ユーザーとの会話を通じてカメラの動きをナビゲートするシステムである。そこで本研究では,テキスト条件付きカメラ軌道生成のためのGPTに基づく自己回帰モデルであるCineGPTを提案する。また、正確なカメラ軌道配置を保証するアンカー決定器も開発した。
論文参考訳（メタデータ） (2024-09-25T20:13:41Z)
Redundancy-Aware Camera Selection for Indoor Scene Neural Rendering [54.468355408388675]
カメラの空間的多様性と画像の意味的変動の両方を取り入れた類似度行列を構築した。カメラ選択を最適化するために,多様性に基づくサンプリングアルゴリズムを適用した。 IndoorTrajという新しいデータセットも開発しています。仮想屋内環境で人間が捉えた、長くて複雑なカメラの動きが含まれています。
論文参考訳（メタデータ） (2024-09-11T08:36:49Z)
Video In-context Learning: Autoregressive Transformers are Zero-Shot Video Imitators [46.40277880351059]
環境と相互作用するモデルのための新しいインタフェースとして視覚信号を活用することを検討する。デモビデオからセマンティクスを推測し,そのセマンティクスを未知のシナリオに模倣する,ゼロショット機能を実現していることがわかった。その結果,本モデルでは,デモビデオが提供する意味指導と正確に一致した高品質なビデオクリップを生成できることがわかった。
論文参考訳（メタデータ） (2024-07-10T04:27:06Z)
Image Conductor: Precision Control for Interactive Video Synthesis [90.2353794019393]
映画製作とアニメーション制作は、しばしばカメラの遷移と物体の動きを調整するための洗練された技術を必要とする。イメージコンダクタ(Image Conductor)は、カメラトランジションとオブジェクトの動きを正確に制御し、単一の画像からビデオアセットを生成する方法である。
論文参考訳（メタデータ） (2024-06-21T17:55:05Z)
Learning Semantic Traversability with Egocentric Video and Automated Annotation Strategy [3.713586225621126]
ロボットは、シーンのセマンティック理解に基づいて、画像内のセマンティック・トラバース可能な地形を識別する能力を持つ必要がある。この推論能力はセマンティックトラバーサビリティに基づいており、テストドメイン上で微調整されたセマンティックセグメンテーションモデルを使用して頻繁に達成される。本稿では,エゴセントリックなビデオと自動アノテーションプロセスを用いて,セマンティック・トラバーサビリティ推定器を訓練するための効果的な手法を提案する。
論文参考訳（メタデータ） (2024-06-05T06:40:04Z)
Generative Camera Dolly: Extreme Monocular Dynamic Novel View Synthesis [43.02778060969546]
制御可能な単分子動的ビュー合成パイプラインを提案する。我々のモデルは入力として深度を必要としないし、明示的に3次元シーン形状をモデル化しない。私たちのフレームワークは、リッチな動的シーン理解、ロボット工学の知覚、バーチャルリアリティのためのインタラクティブな3Dビデオ視聴体験において、強力なアプリケーションをアンロックできる可能性があると考えています。
論文参考訳（メタデータ） (2024-05-23T17:59:52Z)
Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文参考訳（メタデータ） (2024-05-02T17:56:55Z)
Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文参考訳（メタデータ） (2024-04-16T16:04:38Z)
PathFinder: Attention-Driven Dynamic Non-Line-of-Sight Tracking with a Mobile Robot [3.387892563308912]
注目型ニューラルネットワークを用いてLOS(Line-of-sight)ビデオにおける動的逐次フレームのシーケンスを処理する新しい手法を提案する。我々は,映像撮影のためのドローンによる現場撮影のアプローチを検証し,ダイナミックキャプチャ環境での低コストなNLOSイメージングを実証した。
論文参考訳（メタデータ） (2024-04-07T17:31:53Z)
Lift, Splat, Shoot: Encoding Images From Arbitrary Camera Rigs by Implicitly Unprojecting to 3D [100.93808824091258]
本稿では,任意の数のカメラから映像データを与えられたシーンの鳥眼ビュー表現を直接抽出するエンド・ツー・エンドアーキテクチャを提案する。我々のアプローチは、それぞれの画像をそれぞれのカメラのフラストラムに個別に“リフト”し、すべてのフラストラムを鳥の目視格子に“プレート”することです。提案モデルにより推定される表現は,テンプレートトラジェクトリを鳥眼ビューのコストマップに"撮影"することで,終末動作計画の解釈を可能にすることを示す。
論文参考訳（メタデータ） (2020-08-13T06:29:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。