論文の概要: Intelligent Director: An Automatic Framework for Dynamic Visual
Composition using ChatGPT
- arxiv url: http://arxiv.org/abs/2402.15746v1
- Date: Sat, 24 Feb 2024 06:58:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 17:12:31.003918
- Title: Intelligent Director: An Automatic Framework for Dynamic Visual
Composition using ChatGPT
- Title(参考訳): Intelligent Director: ChatGPTを用いた動的視覚合成のためのフレームワーク
- Authors: Sixiao Zheng, Jingyang Huo, Yu Wang, Yanwei Fu
- Abstract要約: ユーザ要求に基づいて様々なメディア要素を自動的に統合し,ストーリーテリングビデオを作成するための動的ビジュアルコンポジション(DVC)タスクを提案する。
我々は、LENSを利用して画像やビデオフレームの記述を生成し、ChatGPTを組み合わせてコヒーレントキャプションを生成するIntelligent Directorフレームワークを提案する。
UCF101-DVCとPersonal Albumデータセットを構築し,本フレームワークの有効性を検証した。
- 参考スコア(独自算出の注目度): 47.40350722537004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rise of short video platforms represented by TikTok, the trend of
users expressing their creativity through photos and videos has increased
dramatically. However, ordinary users lack the professional skills to produce
high-quality videos using professional creation software. To meet the demand
for intelligent and user-friendly video creation tools, we propose the Dynamic
Visual Composition (DVC) task, an interesting and challenging task that aims to
automatically integrate various media elements based on user requirements and
create storytelling videos. We propose an Intelligent Director framework,
utilizing LENS to generate descriptions for images and video frames and
combining ChatGPT to generate coherent captions while recommending appropriate
music names. Then, the best-matched music is obtained through music retrieval.
Then, materials such as captions, images, videos, and music are integrated to
seamlessly synthesize the video. Finally, we apply AnimeGANv2 for style
transfer. We construct UCF101-DVC and Personal Album datasets and verified the
effectiveness of our framework in solving DVC through qualitative and
quantitative comparisons, along with user studies, demonstrating its
substantial potential.
- Abstract(参考訳): TikTokが代表する短いビデオプラットフォームの増加に伴い、写真やビデオによるクリエイティビティ表現の傾向が劇的に高まっている。
しかし、一般ユーザーはプロの制作ソフトを使って高品質な動画を制作する専門的なスキルを欠いている。
知的でユーザフレンドリなビデオ作成ツールの需要に応えるため,ユーザ要求に基づいて様々なメディア要素を自動的に統合し,ストーリーテリングビデオを作成することを目的とした,動的ビジュアルコンポジション(DVC)タスクを提案する。
我々は、LENSを利用して画像やビデオフレームの記述を生成し、ChatGPTを組み合わせてコヒーレントなキャプションを生成し、適切な音楽名を推薦するIntelligent Directorフレームワークを提案する。
そして、音楽検索により、ベストマッチ音楽を得る。
そして、キャプション、画像、ビデオ、音楽などの素材を一体化して映像をシームレスに合成する。
最後に、スタイル転送にAnimeGANv2を適用する。
UCF101-DVCとPersonal Albumデータセットを構築し,質的,定量的な比較によってDVCを解く上でのフレームワークの有効性を検証した。
関連論文リスト
- MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization [52.498942604622165]
本稿では,ビデオコンテンツに合わせた音楽を生成するためのフレームワークであるMuViについて述べる。
MuViは、特別に設計された視覚適応器を通じて映像コンテンツを分析し、文脈的および時間的に関係のある特徴を抽出する。
音声品質と時間同期の両方において, MuVi が優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-10-16T18:44:56Z) - VMAS: Video-to-Music Generation via Semantic Alignment in Web Music Videos [32.741262543860934]
ビデオ入力からバックグラウンド音楽を生成する学習フレームワークを提案する。
我々は,新しいセマンティック・ビデオ・ミュージックアライメント・スキームを用いた生成型ビデオ・ミュージック・トランスフォーマーを開発した。
新しい時間的ビデオエンコーダアーキテクチャにより、多くの高密度なサンプルフレームからなる映像を効率的に処理できる。
論文 参考訳(メタデータ) (2024-09-11T17:56:48Z) - One-Shot Pose-Driving Face Animation Platform [7.422568903818486]
我々は、Face LocatorとMotion Frame機構を統合することで、既存のImage2Videoモデルを洗練する。
我々は、人間の顔ビデオデータセットを用いてモデルを最適化し、高品質な音声ヘッドビデオを作成する能力を大幅に向上させる。
そこで我々は,Gradioフレームワークを用いたデモプラットフォームを開発し,プロセスの合理化を図り,ユーザがカスタマイズした音声ヘッドビデオを簡単に作成できるようにする。
論文 参考訳(メタデータ) (2024-07-12T03:09:07Z) - VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling [71.01050359126141]
ビデオ入力に対応する音楽を生成するためのフレームワークであるVidMuseを提案する。
VidMuseは、ビデオと音響的、意味的に一致した高忠実な音楽を生成する。
論文 参考訳(メタデータ) (2024-06-06T17:58:11Z) - Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。
最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。
第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-07-13T17:57:13Z) - MovieFactory: Automatic Movie Creation from Text using Large Generative
Models for Language and Images [92.13079696503803]
映画制作のためのフレームワークであるMovieFactory(3072$times$1280)、映画スタイル(マルチシーン)、マルチモーダル(サウンド)映画について紹介する。
本手法は,簡単なテキスト入力を用いて,スムーズなトランジションでキャプティベーション映画を制作することを可能にする。
論文 参考訳(メタデータ) (2023-06-12T17:31:23Z) - Generative Disco: Text-to-Video Generation for Music Visualization [9.53563436241774]
我々は,大規模な言語モデルとテキスト・ツー・ビデオ生成による音楽視覚化を支援する生成AIシステムであるGenerative Discoを紹介する。
このシステムは、ユーザーが音楽の開始と終了を知らせるプロンプトを見つけ出し、それらの間を音楽のビートに補間する。
色、時間、主題、スタイルの変化を表現するトランジションと、ビデオが主題に焦点を合わせるのに役立つホールドという、これらの生成されたビデオを改善するためのデザインパターンを紹介します。
論文 参考訳(メタデータ) (2023-04-17T18:44:00Z) - Dynamic Storyboard Generation in an Engine-based Virtual Environment for
Video Production [92.14891282042764]
VDS(Virtual Dynamic Storyboard)を導入し,仮想環境でのストーリーボード撮影を可能にする。
形式化されたストーリースクリプトとカメラスクリプトが入力として与えられたら、いくつかのキャラクターアニメーションとカメラムーブメント提案を生成する。
候補から高品質なダイナミックなストーリーボードをピックアップするために,プロのマニュアル作成データから学習したショット品質基準に基づいて,ショットランキング判別器を装備する。
論文 参考訳(メタデータ) (2023-01-30T06:37:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。