論文の概要: Learning Dolly-In Filming From Demonstration Using a Ground-Based Robot
- arxiv url: http://arxiv.org/abs/2509.00574v1
- Date: Sat, 30 Aug 2025 17:54:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.289022
- Title: Learning Dolly-In Filming From Demonstration Using a Ground-Based Robot
- Title(参考訳): 地上ロボットによるデモからドライイン撮影を学習する
- Authors: Philip Lorimer, Alan Hunter, Wenbin Li,
- Abstract要約: 本稿では,GAIL (Generative Adversarial Imitation Learning) を用いたLearning from Demonstration (LfD) アプローチを提案する。
私たちのパイプラインは、クリエイティブなプロフェッショナルの範囲内で、直感的でスタイリッシュなカメラコントロールを提供し、芸術的な意図とロボットの自律性の間のギャップを埋めます。
- 参考スコア(独自算出の注目度): 3.8803818210315733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cinematic camera control demands a balance of precision and artistry - qualities that are difficult to encode through handcrafted reward functions. While reinforcement learning (RL) has been applied to robotic filmmaking, its reliance on bespoke rewards and extensive tuning limits creative usability. We propose a Learning from Demonstration (LfD) approach using Generative Adversarial Imitation Learning (GAIL) to automate dolly-in shots with a free-roaming, ground-based filming robot. Expert trajectories are collected via joystick teleoperation in simulation, capturing smooth, expressive motion without explicit objective design. Trained exclusively on these demonstrations, our GAIL policy outperforms a PPO baseline in simulation, achieving higher rewards, faster convergence, and lower variance. Crucially, it transfers directly to a real-world robot without fine-tuning, achieving more consistent framing and subject alignment than a prior TD3-based method. These results show that LfD offers a robust, reward-free alternative to RL in cinematic domains, enabling real-time deployment with minimal technical effort. Our pipeline brings intuitive, stylized camera control within reach of creative professionals, bridging the gap between artistic intent and robotic autonomy.
- Abstract(参考訳): 映像カメラ制御は、手作りの報酬関数をエンコードするのが難しい品質の精度と芸術性のバランスを必要とする。
強化学習(RL)はロボット映画製作に応用されているが、その報酬への依存と広範囲なチューニングによって創造的なユーザビリティが制限されている。
本稿では,GAIL (Generative Adversarial Imitation Learning) を用いたLearning from Demonstration (LfD) アプローチを提案する。
専門家の軌跡は、ジョイスティックの遠隔操作を通じて収集され、明示的な客観的設計なしに滑らかで表現的な動きを捉えている。
GAILはこれらの実証を専門に訓練し、シミュレーションにおいてPPOベースラインを上回り、より高い報酬、より高速な収束、低分散を実現している。
重要なことは、それは微調整なしで現実世界のロボットに直接転送し、従来のTD3ベースの方法よりも一貫性のあるフレーミングと主観的アライメントを実現する。
これらの結果から,LfDは撮影領域におけるRLに代わる堅牢で報酬のない代替手段であり,最小限の技術的労力でリアルタイムな展開を可能にすることが示された。
私たちのパイプラインは、クリエイティブなプロフェッショナルの範囲内で、直感的でスタイリッシュなカメラコントロールを提供し、芸術的な意図とロボットの自律性の間のギャップを埋めます。
関連論文リスト
- Reinforcement Learning of Dolly-In Filming Using a Ground-Based Robot [4.5786991293246215]
強化学習(Reinforcement Learning)は、フリーロームグラウンドベースの撮影ロボットを用いたドライインショットの自動化に応用される。
独立制御戦略との比較により, 精密フィルムタスクに対する複合制御の有効性を実証する。
論文 参考訳(メタデータ) (2025-08-30T17:14:11Z) - Physical Autoregressive Model for Robotic Manipulation without Action Pretraining [65.8971623698511]
我々は、自己回帰ビデオ生成モデルを構築し、物理自己回帰モデル(PAR)を提案する。
PARは、アクション事前トレーニングを必要とせず、物理力学を理解するために、ビデオ事前トレーニングに埋め込まれた世界の知識を活用する。
ManiSkillベンチマークの実験は、PARがPushCubeタスクで100%の成功率を達成したことを示している。
論文 参考訳(メタデータ) (2025-08-13T13:54:51Z) - Robotic Manipulation by Imitating Generated Videos Without Physical Demonstrations [19.28925489415787]
RIGVidは、AI生成ビデオの模倣により、ロボットが複雑な操作タスクを実行できる。
ビデオ拡散モデルは潜在的なデモビデオを生成し、視覚言語モデルはコマンドに従わない結果を自動的にフィルタリングする。
6Dポーズトラッカーは、ビデオからオブジェクトの軌跡を抽出し、その軌跡をエンボディメント非依存の方法でロボットに再ターゲティングする。
論文 参考訳(メタデータ) (2025-07-01T17:39:59Z) - ORV: 4D Occupancy-centric Robot Video Generation [33.360345403049685]
遠隔操作を通じて現実世界のロボットシミュレーションデータを取得することは、時間と労力のかかることで有名だ。
ORVは,4次元のセマンティック・コンカレンシー・シーケンスをきめ細かな表現として利用した,作業中心のロボットビデオ生成フレームワークである。
ORVは、占有率に基づく表現を活用することにより、時間的一貫性と正確な制御性を確保しつつ、シミュレーションデータをフォトリアリスティックなロボットビデオにシームレスに変換することができる。
論文 参考訳(メタデータ) (2025-06-03T17:00:32Z) - VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z) - Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos [64.48857272250446]
我々はMotoを紹介する。Motoは、映像コンテンツをラテントモーションTokenizerでラテントモーションTokenシーケンスに変換する。
我々は、モーショントークンによるMoto-GPTの事前学習を行い、多様な視覚的動きの知識を捉えることができる。
実際のロボット動作に先立って学習した動きを転送するために、潜伏した動きのトークン予測と実際のロボット制御をシームレスにブリッジするコファインチューニング戦略を実装した。
論文 参考訳(メタデータ) (2024-12-05T18:57:04Z) - Learning Diverse Robot Striking Motions with Diffusion Models and Kinematically Constrained Gradient Guidance [0.3613661942047476]
私たちは、オフラインで制約付きで、多様なアジャイルの振る舞いを表現する、新しい拡散モデリングアプローチを開発しています。
エアホッケーとリアル卓球の2つの課題領域において, KCGG を評価することで, 時間クリティカルなロボット作業に対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-09-23T20:26:51Z) - RoboCLIP: One Demonstration is Enough to Learn Robot Policies [72.24495908759967]
RoboCLIPは、オンラインの模倣学習手法であり、ビデオデモの形式で1つのデモンストレーションまたはタスクのテキスト記述を使用して報酬を生成する。
RoboCLIPは、報酬生成のタスクを解決した人間のビデオや、同じデモやデプロイメントドメインを持つ必要を回避するなど、ドメイン外のデモも利用することができる。
論文 参考訳(メタデータ) (2023-10-11T21:10:21Z) - Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文 参考訳(メタデータ) (2023-06-16T17:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。