論文の概要: MobileVidFactory: Automatic Diffusion-Based Social Media Video
Generation for Mobile Devices from Text
- arxiv url: http://arxiv.org/abs/2307.16371v1
- Date: Mon, 31 Jul 2023 02:31:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 15:57:28.140832
- Title: MobileVidFactory: Automatic Diffusion-Based Social Media Video
Generation for Mobile Devices from Text
- Title(参考訳): MobileVidFactory:テキストによるモバイル端末向け拡散型ソーシャルメディアビデオの自動生成
- Authors: Junchen Zhu, Huan Yang, Wenjing Wang, Huiguo He, Zixi Tuo, Yongsheng
Yu, Wen-Huang Cheng, Lianli Gao, Jingkuan Song, Jianlong Fu, Jiebo Luo
- Abstract要約: 垂直移動ビデオの自動生成システムであるMobileVidFactoryを提案する。
基本世代では、事前訓練された画像拡散モデルを利用し、高品質なオープンドメイン垂直ビデオ生成装置に適応する。
音声に関しては、大容量のデータベースから検索することで、ビデオの背景音にマッチする。
- 参考スコア(独自算出の注目度): 133.1200691780547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Videos for mobile devices become the most popular access to share and acquire
information recently. For the convenience of users' creation, in this paper, we
present a system, namely MobileVidFactory, to automatically generate vertical
mobile videos where users only need to give simple texts mainly. Our system
consists of two parts: basic and customized generation. In the basic
generation, we take advantage of the pretrained image diffusion model, and
adapt it to a high-quality open-domain vertical video generator for mobile
devices. As for the audio, by retrieving from our big database, our system
matches a suitable background sound for the video. Additionally to produce
customized content, our system allows users to add specified screen texts to
the video for enriching visual expression, and specify texts for automatic
reading with optional voices as they like.
- Abstract(参考訳): モバイル機器向けビデオは、最近、情報の共有や取得に最も人気がある。
本稿では,ユーザ作成の便宜を図るため,モバイルビデオの自動生成システムであるMobileVidFactoryを提案する。
我々のシステムは2つの部分から成り立っている。
基本世代では、事前訓練された画像拡散モデルを利用して、モバイルデバイス用の高品質なオープンドメイン垂直ビデオ生成装置に適応する。
音声に関しては、我々の大きなデータベースから検索することで、われわれのシステムはビデオに適した背景音にマッチする。
カスタマイズされたコンテンツの制作に加えて,視覚表現を豊かにするための特定の画面テキストをビデオに追加したり,任意の音声で自動読み出すテキストを好きなように指定することができる。
関連論文リスト
- RACCooN: A Versatile Instructional Video Editing Framework with Auto-Generated Narratives [58.15403987979496]
本稿では,RACCooNを提案する。
ビデオ生成モデルは、自動生成された物語や指示を取り入れて、生成されたコンテンツの質と精度を高める。
提案フレームワークは,ビデオ・パラグラフ生成,映像コンテンツ編集において優れた多機能性を示し,さらに拡張するために他のSoTAビデオ生成モデルに組み込むことができる。
論文 参考訳(メタデータ) (2024-05-28T17:46:36Z) - UniVG: Towards UNIfied-modal Video Generation [27.07637246141562]
テキストと画像のモダリティをまたいだ複数のビデオ生成タスクを処理できる統一モーダルビデオ生成システムを提案する。
MSR-VTT上ではFr'echet Video Distance (FVD) が最も低く、人間の評価において現在のオープンソース手法を上回り、現在のオープンソース手法であるGen2と同等である。
論文 参考訳(メタデータ) (2024-01-17T09:46:13Z) - A Recipe for Scaling up Text-to-Video Generation with Text-free Videos [72.59262815400928]
拡散ベースのテキスト・ツー・ビデオ世代は、過去1年で目覚ましい進歩をみせたが、それでもテキスト・ツー・画像世代には及ばない。
我々はTF-T2Vと呼ばれる新しいテキスト・ビデオ生成フレームワークを考案した。
論文 参考訳(メタデータ) (2023-12-25T16:37:39Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - Audio-Enhanced Text-to-Video Retrieval using Text-Conditioned Feature
Alignment [16.304894187743013]
TEFALは、テキストクエリで条件付けられた音声とビデオの両方の表現を生成する、TExt条件のフィーチャーアライメント手法である。
提案手法では、2つの独立したモーダル・アテンション・ブロックを用いて、テキストが音声とビデオの表現を別々に扱えるようにしている。
論文 参考訳(メタデータ) (2023-07-24T17:43:13Z) - Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。
最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。
第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-07-13T17:57:13Z) - MovieFactory: Automatic Movie Creation from Text using Large Generative
Models for Language and Images [92.13079696503803]
映画制作のためのフレームワークであるMovieFactory(3072$times$1280)、映画スタイル(マルチシーン)、マルチモーダル(サウンド)映画について紹介する。
本手法は,簡単なテキスト入力を用いて,スムーズなトランジションでキャプティベーション映画を制作することを可能にする。
論文 参考訳(メタデータ) (2023-06-12T17:31:23Z) - VideoOFA: Two-Stage Pre-Training for Video-to-Text Generation [43.90887811621963]
本稿では,ビデオキャプションや質問応答などのビデオ・テキスト生成タスクのための2段階事前学習フレームワークを提案する。
生成エンコーダ・デコーダモデルは、まず、画像言語データに基づいて、基本概念を学ぶために、共同で事前訓練される。
その結果、VoiceOFAモデルは、4つのVideo Captioningベンチマークで最先端のパフォーマンスを実現した。
論文 参考訳(メタデータ) (2023-05-04T23:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。