Fugu-MT 論文翻訳(概要): MobileVidFactory: Automatic Diffusion-Based Social Media Video Generation for Mobile Devices from Text

論文の概要: MobileVidFactory: Automatic Diffusion-Based Social Media Video Generation for Mobile Devices from Text

arxiv url: http://arxiv.org/abs/2307.16371v1
Date: Mon, 31 Jul 2023 02:31:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-01 15:57:28.140832
Title: MobileVidFactory: Automatic Diffusion-Based Social Media Video Generation for Mobile Devices from Text
Title（参考訳）: MobileVidFactory:テキストによるモバイル端末向け拡散型ソーシャルメディアビデオの自動生成
Authors: Junchen Zhu, Huan Yang, Wenjing Wang, Huiguo He, Zixi Tuo, Yongsheng Yu, Wen-Huang Cheng, Lianli Gao, Jingkuan Song, Jianlong Fu, Jiebo Luo
Abstract要約: 垂直移動ビデオの自動生成システムであるMobileVidFactoryを提案する。基本世代では、事前訓練された画像拡散モデルを利用し、高品質なオープンドメイン垂直ビデオ生成装置に適応する。音声に関しては、大容量のデータベースから検索することで、ビデオの背景音にマッチする。
参考スコア（独自算出の注目度）: 133.1200691780547
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Videos for mobile devices become the most popular access to share and acquire information recently. For the convenience of users' creation, in this paper, we present a system, namely MobileVidFactory, to automatically generate vertical mobile videos where users only need to give simple texts mainly. Our system consists of two parts: basic and customized generation. In the basic generation, we take advantage of the pretrained image diffusion model, and adapt it to a high-quality open-domain vertical video generator for mobile devices. As for the audio, by retrieving from our big database, our system matches a suitable background sound for the video. Additionally to produce customized content, our system allows users to add specified screen texts to the video for enriching visual expression, and specify texts for automatic reading with optional voices as they like.
Abstract（参考訳）: モバイル機器向けビデオは、最近、情報の共有や取得に最も人気がある。本稿では,ユーザ作成の便宜を図るため,モバイルビデオの自動生成システムであるMobileVidFactoryを提案する。我々のシステムは2つの部分から成り立っている。基本世代では、事前訓練された画像拡散モデルを利用して、モバイルデバイス用の高品質なオープンドメイン垂直ビデオ生成装置に適応する。音声に関しては、我々の大きなデータベースから検索することで、われわれのシステムはビデオに適した背景音にマッチする。カスタマイズされたコンテンツの制作に加えて,視覚表現を豊かにするための特定の画面テキストをビデオに追加したり,任意の音声で自動読み出すテキストを好きなように指定することができる。

関連論文リスト

TA-V2A: Textually Assisted Video-to-Audio Generation [9.957113952852051]
V2A(Video-to-audio)生成は、マルチメディア編集、拡張現実、自動コンテンツ作成において有望な領域として登場した。本稿では,言語,音声,ビデオ機能を統合し,潜在空間における意味表現を改善するTA-V2Aを提案する。
論文参考訳（メタデータ） (2025-03-12T06:43:24Z)
RACCooN: A Versatile Instructional Video Editing Framework with Auto-Generated Narratives [58.15403987979496]
本稿では,RACCooNを提案する。ビデオ生成モデルは、自動生成された物語や指示を取り入れて、生成されたコンテンツの質と精度を高める。提案フレームワークは,ビデオ・パラグラフ生成,映像コンテンツ編集において優れた多機能性を示し,さらに拡張するために他のSoTAビデオ生成モデルに組み込むことができる。
論文参考訳（メタデータ） (2024-05-28T17:46:36Z)
UniVG: Towards UNIfied-modal Video Generation [27.07637246141562]
テキストと画像のモダリティをまたいだ複数のビデオ生成タスクを処理できる統一モーダルビデオ生成システムを提案する。 MSR-VTT上ではFr'echet Video Distance (FVD) が最も低く、人間の評価において現在のオープンソース手法を上回り、現在のオープンソース手法であるGen2と同等である。
論文参考訳（メタデータ） (2024-01-17T09:46:13Z)
A Recipe for Scaling up Text-to-Video Generation with Text-free Videos [72.59262815400928]
拡散ベースのテキスト・ツー・ビデオ世代は、過去1年で目覚ましい進歩をみせたが、それでもテキスト・ツー・画像世代には及ばない。我々はTF-T2Vと呼ばれる新しいテキスト・ビデオ生成フレームワークを考案した。
論文参考訳（メタデータ） (2023-12-25T16:37:39Z)
Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文参考訳（メタデータ） (2023-09-28T13:26:26Z)
Audio-Enhanced Text-to-Video Retrieval using Text-Conditioned Feature Alignment [16.304894187743013]
TEFALは、テキストクエリで条件付けられた音声とビデオの両方の表現を生成する、TExt条件のフィーチャーアライメント手法である。提案手法では、2つの独立したモーダル・アテンション・ブロックを用いて、テキストが音声とビデオの表現を別々に扱えるようにしている。
論文参考訳（メタデータ） (2023-07-24T17:43:13Z)
Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文参考訳（メタデータ） (2023-07-13T17:57:13Z)
MovieFactory: Automatic Movie Creation from Text using Large Generative Models for Language and Images [92.13079696503803]
映画制作のためのフレームワークであるMovieFactory(3072$times$1280)、映画スタイル(マルチシーン)、マルチモーダル(サウンド)映画について紹介する。本手法は,簡単なテキスト入力を用いて,スムーズなトランジションでキャプティベーション映画を制作することを可能にする。
論文参考訳（メタデータ） (2023-06-12T17:31:23Z)
VideoOFA: Two-Stage Pre-Training for Video-to-Text Generation [43.90887811621963]
本稿では,ビデオキャプションや質問応答などのビデオ・テキスト生成タスクのための2段階事前学習フレームワークを提案する。生成エンコーダ・デコーダモデルは、まず、画像言語データに基づいて、基本概念を学ぶために、共同で事前訓練される。その結果、VoiceOFAモデルは、4つのVideo Captioningベンチマークで最先端のパフォーマンスを実現した。
論文参考訳（メタデータ） (2023-05-04T23:27:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。