論文の概要: MobileVidFactory: Automatic Diffusion-Based Social Media Video
Generation for Mobile Devices from Text
- arxiv url: http://arxiv.org/abs/2307.16371v1
- Date: Mon, 31 Jul 2023 02:31:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 15:57:28.140832
- Title: MobileVidFactory: Automatic Diffusion-Based Social Media Video
Generation for Mobile Devices from Text
- Title(参考訳): MobileVidFactory:テキストによるモバイル端末向け拡散型ソーシャルメディアビデオの自動生成
- Authors: Junchen Zhu, Huan Yang, Wenjing Wang, Huiguo He, Zixi Tuo, Yongsheng
Yu, Wen-Huang Cheng, Lianli Gao, Jingkuan Song, Jianlong Fu, Jiebo Luo
- Abstract要約: 垂直移動ビデオの自動生成システムであるMobileVidFactoryを提案する。
基本世代では、事前訓練された画像拡散モデルを利用し、高品質なオープンドメイン垂直ビデオ生成装置に適応する。
音声に関しては、大容量のデータベースから検索することで、ビデオの背景音にマッチする。
- 参考スコア(独自算出の注目度): 133.1200691780547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Videos for mobile devices become the most popular access to share and acquire
information recently. For the convenience of users' creation, in this paper, we
present a system, namely MobileVidFactory, to automatically generate vertical
mobile videos where users only need to give simple texts mainly. Our system
consists of two parts: basic and customized generation. In the basic
generation, we take advantage of the pretrained image diffusion model, and
adapt it to a high-quality open-domain vertical video generator for mobile
devices. As for the audio, by retrieving from our big database, our system
matches a suitable background sound for the video. Additionally to produce
customized content, our system allows users to add specified screen texts to
the video for enriching visual expression, and specify texts for automatic
reading with optional voices as they like.
- Abstract(参考訳): モバイル機器向けビデオは、最近、情報の共有や取得に最も人気がある。
本稿では,ユーザ作成の便宜を図るため,モバイルビデオの自動生成システムであるMobileVidFactoryを提案する。
我々のシステムは2つの部分から成り立っている。
基本世代では、事前訓練された画像拡散モデルを利用して、モバイルデバイス用の高品質なオープンドメイン垂直ビデオ生成装置に適応する。
音声に関しては、我々の大きなデータベースから検索することで、われわれのシステムはビデオに適した背景音にマッチする。
カスタマイズされたコンテンツの制作に加えて,視覚表現を豊かにするための特定の画面テキストをビデオに追加したり,任意の音声で自動読み出すテキストを好きなように指定することができる。
関連論文リスト
- UniVG: Towards UNIfied-modal Video Generation [27.07637246141562]
テキストと画像のモダリティをまたいだ複数のビデオ生成タスクを処理できる統一モーダルビデオ生成システムを提案する。
MSR-VTT上ではFr'echet Video Distance (FVD) が最も低く、人間の評価において現在のオープンソース手法を上回り、現在のオープンソース手法であるGen2と同等である。
論文 参考訳(メタデータ) (2024-01-17T09:46:13Z) - A Recipe for Scaling up Text-to-Video Generation with Text-free Videos [72.59262815400928]
拡散ベースのテキスト・ツー・ビデオ世代は、過去1年で目覚ましい進歩をみせたが、それでもテキスト・ツー・画像世代には及ばない。
我々はTF-T2Vと呼ばれる新しいテキスト・ビデオ生成フレームワークを考案した。
論文 参考訳(メタデータ) (2023-12-25T16:37:39Z) - PG-Video-LLaVA: Pixel Grounding Large Video-Language Models [52.83065081926238]
PG-Video-LLaVA は画素レベルのグラウンド機能を持つ最初の LMM であり,映像内容の理解を深めるためにテキストに書き起こして音声キューを統合する。
我々のフレームワークは、SoTAイメージベースのLLaVAモデルに基づいており、その利点をビデオ領域に拡張し、ビデオベースの会話と接地タスクに有望な利益をもたらす。
論文 参考訳(メタデータ) (2023-11-22T14:48:30Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - Audio-Enhanced Text-to-Video Retrieval using Text-Conditioned Feature
Alignment [16.304894187743013]
TEFALは、テキストクエリで条件付けられた音声とビデオの両方の表現を生成する、TExt条件のフィーチャーアライメント手法である。
提案手法では、2つの独立したモーダル・アテンション・ブロックを用いて、テキストが音声とビデオの表現を別々に扱えるようにしている。
論文 参考訳(メタデータ) (2023-07-24T17:43:13Z) - Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。
最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。
第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-07-13T17:57:13Z) - MovieFactory: Automatic Movie Creation from Text using Large Generative
Models for Language and Images [92.13079696503803]
映画制作のためのフレームワークであるMovieFactory(3072$times$1280)、映画スタイル(マルチシーン)、マルチモーダル(サウンド)映画について紹介する。
本手法は,簡単なテキスト入力を用いて,スムーズなトランジションでキャプティベーション映画を制作することを可能にする。
論文 参考訳(メタデータ) (2023-06-12T17:31:23Z) - DiffAVA: Personalized Text-to-Audio Generation with Visual Alignment [30.38594416942543]
本稿では,遅延拡散モデル,すなわちDiffAVAに基づく視覚アライメントを用いた,新規でパーソナライズされたテキスト・音声生成手法を提案する。
我々のDiffAVAは、ビデオ特徴から時間情報を集約するマルチヘッドアテンショントランスフォーマーと、テキスト埋め込みで時間的視覚表現を融合するデュアルマルチモーダル残差ネットワークを活用している。
AudioCapsデータセットの実験結果から、提案したDiffAVAは、視覚的に整列したテキスト・オーディオ生成において、競合する性能を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-22T10:37:27Z) - VideoOFA: Two-Stage Pre-Training for Video-to-Text Generation [43.90887811621963]
本稿では,ビデオキャプションや質問応答などのビデオ・テキスト生成タスクのための2段階事前学習フレームワークを提案する。
生成エンコーダ・デコーダモデルは、まず、画像言語データに基づいて、基本概念を学ぶために、共同で事前訓練される。
その結果、VoiceOFAモデルは、4つのVideo Captioningベンチマークで最先端のパフォーマンスを実現した。
論文 参考訳(メタデータ) (2023-05-04T23:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。