論文の概要: AutoDirector: Online Auto-scheduling Agents for Multi-sensory Composition
- arxiv url: http://arxiv.org/abs/2408.11564v1
- Date: Wed, 21 Aug 2024 12:18:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 17:07:27.271596
- Title: AutoDirector: Online Auto-scheduling Agents for Multi-sensory Composition
- Title(参考訳): AutoDirector:多感覚合成のためのオンライン自動スケジューリングエージェント
- Authors: Minheng Ni, Chenfei Wu, Huaying Yuan, Zhengyuan Yang, Ming Gong, Lijuan Wang, Zicheng Liu, Wangmeng Zuo, Nan Duan,
- Abstract要約: AutoDirectorはインタラクティブな多感覚合成フレームワークで、ロングショット、特殊効果、音楽スコア、ダビング、リップシンクをサポートする。
自動スケジューリングにより多感フィルム製造の効率を向上し、ユーザニーズを満たすインタラクティブなタスクの修正と改善を支援する。
- 参考スコア(独自算出の注目度): 149.89952404881174
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the advancement of generative models, the synthesis of different sensory elements such as music, visuals, and speech has achieved significant realism. However, the approach to generate multi-sensory outputs has not been fully explored, limiting the application on high-value scenarios such as of directing a film. Developing a movie director agent faces two major challenges: (1) Lack of parallelism and online scheduling with production steps: In the production of multi-sensory films, there are complex dependencies between different sensory elements, and the production time for each element varies. (2) Diverse needs and clear communication demands with users: Users often cannot clearly express their needs until they see a draft, which requires human-computer interaction and iteration to continually adjust and optimize the film content based on user feedback. To address these issues, we introduce AutoDirector, an interactive multi-sensory composition framework that supports long shots, special effects, music scoring, dubbing, and lip-syncing. This framework improves the efficiency of multi-sensory film production through automatic scheduling and supports the modification and improvement of interactive tasks to meet user needs. AutoDirector not only expands the application scope of human-machine collaboration but also demonstrates the potential of AI in collaborating with humans in the role of a film director to complete multi-sensory films.
- Abstract(参考訳): 生成モデルの進歩により、音楽、視覚、音声といった様々な感覚要素の合成は重要なリアリズムを達成している。
しかし、マルチ感覚出力を生成するためのアプローチは十分に検討されておらず、フィルムのディレクティブのような高価値シナリオへの適用を制限している。
1) 並列性の欠如と生産段階によるオンラインスケジューリング: 多感覚フィルムの製造においては、異なる感覚要素間の複雑な依存関係があり、各要素の生産時間が異なる。
2) ユーザとの多様なニーズと明確なコミュニケーション要求: ユーザは、ユーザからのフィードバックに基づいて映画コンテンツを継続的に調整し最適化するために、人間とコンピュータのインタラクションとイテレーションを必要とするドラフトを見るまで、ニーズを明確に表現することができないことが多い。
これらの問題に対処するため,私たちは,ロングショット,特殊効果,音楽スコアリング,ダビング,リップ同期をサポートする対話型多感合成フレームワークであるAutoDirectorを紹介した。
本フレームワークは,自動スケジューリングによる多感フィルム製造効率の向上と,ユーザニーズを満たす対話型タスクの修正と改善を支援する。
AutoDirectorは、人間と機械のコラボレーションの応用範囲を広げるだけでなく、映画監督の役割における人間とのコラボレーションにおけるAIの可能性も示している。
関連論文リスト
- FilmAgent: A Multi-Agent Framework for End-to-End Film Automation in Virtual 3D Spaces [42.3549764892671]
FilmAgentは、エンドツーエンドのフィルム自動化のための新しいマルチエージェント協調フレームワークである。
FilmAgentは、映画監督、脚本家、俳優、撮影監督など、様々なクルーの役割をシミュレートしている。
エージェントのチームは反復的なフィードバックと修正を通じて協力し、中間スクリプトの検証と幻覚の低減を行う。
論文 参考訳(メタデータ) (2025-01-22T14:36:30Z) - HumanVBench: Exploring Human-Centric Video Understanding Capabilities of MLLMs with Synthetic Benchmark Data [55.739633494946204]
我々は,ビデオMLLMの評価において,ギャップを埋めるために巧みに構築された,革新的なベンチマークであるHumanVBenchを紹介する。
HumanVBenchは、17の慎重に設計されたタスクで構成されており、内的感情と外的表現、静的、動的、基本的、複雑にまたがる、シングルモーダルとクロスモーダルという2つの主要な側面を探索する。
論文 参考訳(メタデータ) (2024-12-23T13:45:56Z) - Two-in-One: Unified Multi-Person Interactive Motion Generation by Latent Diffusion Transformer [24.166147954731652]
多人数対話型モーション生成はコンピュータ・キャラクター・アニメーションにおける重要な領域であるが、未探索領域である。
現在の研究では、個々の動作に別々のモジュールブランチを使用することが多いため、インタラクション情報が失われる。
本稿では,複数の人物の動きとその相互作用を1つの潜在空間内でモデル化する,新しい統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-12-21T15:35:50Z) - It Takes Two: Real-time Co-Speech Two-person's Interaction Generation via Reactive Auto-regressive Diffusion Model [34.94330722832987]
会話中の2文字の動的動きを合成するための音声駆動自動回帰システムを提案する。
我々の知る限りでは、オンライン方式で2文字の対話型フルボディモーションを生成できる最初のシステムである。
論文 参考訳(メタデータ) (2024-12-03T12:31:44Z) - Vocal Sandbox: Continual Learning and Adaptation for Situated Human-Robot Collaboration [64.6107798750142]
Vocal Sandboxは、位置のある環境でシームレスな人間とロボットのコラボレーションを可能にするフレームワークである。
我々は,ロボットの能力に対する理解と協調をリアルタイムで構築できる軽量で解釈可能な学習アルゴリズムを設計する。
我々はVocal Sandboxを,コラボレーションギフトバッグアセンブリとLEGOストップモーションアニメーションの2つの設定で評価した。
論文 参考訳(メタデータ) (2024-11-04T20:44:40Z) - DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - Towards Embedding Dynamic Personas in Interactive Robots: Masquerading Animated Social Kinematics (MASK) [10.351714893090964]
本稿では,キャラクターライクなペルソナを用いたユーザエンゲージメントを高める革新的な対話型ロボットシステムの設計と開発について述べる。
ペルソナ駆動のダイアログエージェントの基礎の上に構築されたこの研究は、エージェントを物理的な領域に拡張し、ロボットを使ってより魅了的で対話的な体験を提供する。
論文 参考訳(メタデータ) (2024-03-15T06:22:32Z) - ReMoS: 3D Motion-Conditioned Reaction Synthesis for Two-Person Interactions [66.87211993793807]
本稿では,2人のインタラクションシナリオにおいて,人の全身運動を合成する拡散モデルReMoSを提案する。
ペアダンス,忍術,キックボクシング,アクロバティックといった2人のシナリオでReMoSを実証する。
また,全身動作と指の動きを含む2人のインタラクションに対してReMoCapデータセットを寄贈した。
論文 参考訳(メタデータ) (2023-11-28T18:59:52Z) - Smart Director: An Event-Driven Directing System for Live Broadcasting [110.30675947733167]
Smart Directorは、典型的な人間向けブロードキャストプロセスを模倣して、ほぼ専門的なブロードキャストプログラムをリアルタイムで自動的に作成することを目指している。
本システムは,マルチカメラスポーツ放送における初のエンドツーエンド自動指向システムである。
論文 参考訳(メタデータ) (2022-01-11T16:14:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。