論文の概要: AutoDirector: Online Auto-scheduling Agents for Multi-sensory Composition
- arxiv url: http://arxiv.org/abs/2408.11564v1
- Date: Wed, 21 Aug 2024 12:18:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 17:07:27.271596
- Title: AutoDirector: Online Auto-scheduling Agents for Multi-sensory Composition
- Title(参考訳): AutoDirector:多感覚合成のためのオンライン自動スケジューリングエージェント
- Authors: Minheng Ni, Chenfei Wu, Huaying Yuan, Zhengyuan Yang, Ming Gong, Lijuan Wang, Zicheng Liu, Wangmeng Zuo, Nan Duan,
- Abstract要約: AutoDirectorはインタラクティブな多感覚合成フレームワークで、ロングショット、特殊効果、音楽スコア、ダビング、リップシンクをサポートする。
自動スケジューリングにより多感フィルム製造の効率を向上し、ユーザニーズを満たすインタラクティブなタスクの修正と改善を支援する。
- 参考スコア(独自算出の注目度): 149.89952404881174
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the advancement of generative models, the synthesis of different sensory elements such as music, visuals, and speech has achieved significant realism. However, the approach to generate multi-sensory outputs has not been fully explored, limiting the application on high-value scenarios such as of directing a film. Developing a movie director agent faces two major challenges: (1) Lack of parallelism and online scheduling with production steps: In the production of multi-sensory films, there are complex dependencies between different sensory elements, and the production time for each element varies. (2) Diverse needs and clear communication demands with users: Users often cannot clearly express their needs until they see a draft, which requires human-computer interaction and iteration to continually adjust and optimize the film content based on user feedback. To address these issues, we introduce AutoDirector, an interactive multi-sensory composition framework that supports long shots, special effects, music scoring, dubbing, and lip-syncing. This framework improves the efficiency of multi-sensory film production through automatic scheduling and supports the modification and improvement of interactive tasks to meet user needs. AutoDirector not only expands the application scope of human-machine collaboration but also demonstrates the potential of AI in collaborating with humans in the role of a film director to complete multi-sensory films.
- Abstract(参考訳): 生成モデルの進歩により、音楽、視覚、音声といった様々な感覚要素の合成は重要なリアリズムを達成している。
しかし、マルチ感覚出力を生成するためのアプローチは十分に検討されておらず、フィルムのディレクティブのような高価値シナリオへの適用を制限している。
1) 並列性の欠如と生産段階によるオンラインスケジューリング: 多感覚フィルムの製造においては、異なる感覚要素間の複雑な依存関係があり、各要素の生産時間が異なる。
2) ユーザとの多様なニーズと明確なコミュニケーション要求: ユーザは、ユーザからのフィードバックに基づいて映画コンテンツを継続的に調整し最適化するために、人間とコンピュータのインタラクションとイテレーションを必要とするドラフトを見るまで、ニーズを明確に表現することができないことが多い。
これらの問題に対処するため,私たちは,ロングショット,特殊効果,音楽スコアリング,ダビング,リップ同期をサポートする対話型多感合成フレームワークであるAutoDirectorを紹介した。
本フレームワークは,自動スケジューリングによる多感フィルム製造効率の向上と,ユーザニーズを満たす対話型タスクの修正と改善を支援する。
AutoDirectorは、人間と機械のコラボレーションの応用範囲を広げるだけでなく、映画監督の役割における人間とのコラボレーションにおけるAIの可能性も示している。
関連論文リスト
- Vocal Sandbox: Continual Learning and Adaptation for Situated Human-Robot Collaboration [64.6107798750142]
Vocal Sandboxは、位置のある環境でシームレスな人間とロボットのコラボレーションを可能にするフレームワークである。
我々は,ロボットの能力に対する理解と協調をリアルタイムで構築できる軽量で解釈可能な学習アルゴリズムを設計する。
我々はVocal Sandboxを,コラボレーションギフトバッグアセンブリとLEGOストップモーションアニメーションの2つの設定で評価した。
論文 参考訳(メタデータ) (2024-11-04T20:44:40Z) - DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - Towards Embedding Dynamic Personas in Interactive Robots: Masquerading Animated Social Kinematics (MASK) [10.351714893090964]
本稿では,キャラクターライクなペルソナを用いたユーザエンゲージメントを高める革新的な対話型ロボットシステムの設計と開発について述べる。
ペルソナ駆動のダイアログエージェントの基礎の上に構築されたこの研究は、エージェントを物理的な領域に拡張し、ロボットを使ってより魅了的で対話的な体験を提供する。
論文 参考訳(メタデータ) (2024-03-15T06:22:32Z) - FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z) - GTAutoAct: An Automatic Datasets Generation Framework Based on Game
Engine Redevelopment for Action Recognition [12.521014978532548]
GTAutoActは、ゲームエンジン技術を活用してアクション認識の進歩を促進する新しいデータセット生成フレームワークである。
座標に基づく3次元人間の動きを、複数の視点で適合性を高めた回転向きの表現に変換する。
自律的なビデオキャプチャと処理パイプラインを実装しており、ランダムにナビゲートするカメラと自動トリミングとラベル付け機能を備えている。
論文 参考訳(メタデータ) (2024-01-24T12:18:31Z) - ReMoS: 3D Motion-Conditioned Reaction Synthesis for Two-Person Interactions [66.87211993793807]
本稿では,2人のインタラクションシナリオにおいて,人の全身運動を合成する拡散モデルReMoSを提案する。
ペアダンス,忍術,キックボクシング,アクロバティックといった2人のシナリオでReMoSを実証する。
また,全身動作と指の動きを含む2人のインタラクションに対してReMoCapデータセットを寄贈した。
論文 参考訳(メタデータ) (2023-11-28T18:59:52Z) - InterGen: Diffusion-based Multi-human Motion Generation under Complex Interactions [49.097973114627344]
動作拡散プロセスに人間と人間の相互作用を組み込んだ効果的な拡散ベースアプローチであるInterGenを提案する。
我々はまず、InterHumanという名前のマルチモーダルデータセットをコントリビュートする。これは、様々な2人インタラクションのための約107Mフレームで構成され、正確な骨格運動と23,337の自然言語記述を持つ。
本稿では,世界規模での2人のパフォーマーのグローバルな関係を明示的に定式化した対話拡散モデルにおける動作入力の表現を提案する。
論文 参考訳(メタデータ) (2023-04-12T08:12:29Z) - Smart Director: An Event-Driven Directing System for Live Broadcasting [110.30675947733167]
Smart Directorは、典型的な人間向けブロードキャストプロセスを模倣して、ほぼ専門的なブロードキャストプログラムをリアルタイムで自動的に作成することを目指している。
本システムは,マルチカメラスポーツ放送における初のエンドツーエンド自動指向システムである。
論文 参考訳(メタデータ) (2022-01-11T16:14:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。