論文の概要: VC-LLM: Automated Advertisement Video Creation from Raw Footage using Multi-modal LLMs
- arxiv url: http://arxiv.org/abs/2504.05673v1
- Date: Tue, 08 Apr 2025 04:35:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:29:54.496889
- Title: VC-LLM: Automated Advertisement Video Creation from Raw Footage using Multi-modal LLMs
- Title(参考訳): VC-LLM:Multi-modal LLMを用いた映像自動作成
- Authors: Dongjun Qian, Kai Su, Yiming Tan, Qishuai Diao, Xian Wu, Chang Liu, Bingyue Peng, Zehuan Yuan,
- Abstract要約: 本稿では,高品質なショートフォーム広告ビデオの自動作成のための大規模言語モデルを用いたフレームワークであるVC-LLMを提案する。
提案手法は,高分解能な空間入力と低分解能な時間入力を利用して,ビデオクリップをより効果的に表現する。
GPT-4oをベースとしたVC-LLMは、人間が作成したビデオに匹敵するビデオを生成することができる。
- 参考スコア(独自算出の注目度): 43.50425781768217
- License:
- Abstract: As short videos have risen in popularity, the role of video content in advertising has become increasingly significant. Typically, advertisers record a large amount of raw footage about the product and then create numerous different short-form advertisement videos based on this raw footage. Creating such videos mainly involves editing raw footage and writing advertisement scripts, which requires a certain level of creative ability. It is usually challenging to create many different video contents for the same product, and manual efficiency is often low. In this paper, we present VC-LLM, a framework powered by Large Language Models for the automatic creation of high-quality short-form advertisement videos. Our approach leverages high-resolution spatial input and low-resolution temporal input to represent video clips more effectively, capturing both fine-grained visual details and broader temporal dynamics. In addition, during training, we incorporate supplementary information generated by rewriting the ground truth text, ensuring that all key output information can be directly traced back to the input, thereby reducing model hallucinations. We also designed a benchmark to evaluate the quality of the created videos. Experiments show that VC-LLM based on GPT-4o can produce videos comparable to those created by humans. Furthermore, we collected numerous high-quality short advertisement videos to create a pre-training dataset and manually cleaned a portion of the data to construct a high-quality fine-tuning dataset. Experiments indicate that, on the benchmark, the VC-LLM based on fine-tuned LLM can produce videos with superior narrative logic compared to those created by the VC-LLM based on GPT-4o.
- Abstract(参考訳): ショートビデオの人気が高まるにつれ、広告におけるビデオコンテンツの役割はますます重要になっている。
通常、広告主は製品に関する大量の生の映像を記録し、この生の映像に基づいて様々なショートフォームの広告ビデオを作成する。
このようなビデオを作成するには、主に生の映像を編集し、一定の創造性を必要とする広告スクリプトを書く必要がある。
通常、同じ製品のために多くの異なるビデオコンテンツを作成することは困難であり、手動の効率はしばしば低い。
本稿では,高品質なショートフォーム広告ビデオの自動作成のための大規模言語モデルを用いたフレームワークであるVC-LLMを提案する。
提案手法は,高分解能な空間入力と低分解能な時間入力を利用して,映像クリップをより効果的に表現し,きめ細かな視覚的詳細とより広い時間的ダイナミクスの両方を捉える。
さらに、トレーニング中に、基礎となる真理テキストを書き換えて生成された補足情報を組み込んで、全てのキー出力情報を入力に直接トレースできるようにし、モデル幻覚を低減させる。
また、作成したビデオの品質を評価するためのベンチマークも設計しました。
GPT-4oをベースとしたVC-LLMは、人間が作成したビデオに匹敵するビデオを生成することができる。
さらに,多数の高品質なショート広告ビデオを収集し,事前学習データセットを作成し,データの一部を手作業で浄化し,高品質な微調整データセットを構築した。
実験の結果,GPT-4oに基づくVC-LLMと比べ,微調整LDMに基づくVC-LLMは優れたナラティブ論理を持つビデオを生成することができた。
関連論文リスト
- Divot: Diffusion Powers Video Tokenizer for Comprehension and Generation [54.21476271127356]
Divotは拡散駆動型ビデオトケナイザである。
我々は、ビデオからテキストへの自己回帰とテキストからビデオへの生成を通じてDivot-unaVicを提示する。
論文 参考訳(メタデータ) (2024-12-05T18:53:04Z) - Video-STaR: Self-Training Enables Video Instruction Tuning with Any Supervision [24.568643475808564]
Video Self-Training with augmented Reasoning (Video-STaR)は、最初のビデオセルフトレーニングアプローチである。
Video-STaRは、ビデオインストラクションチューニングにラベル付きビデオデータセットを利用することができる。
論文 参考訳(メタデータ) (2024-07-08T17:59:42Z) - Fewer Tokens and Fewer Videos: Extending Video Understanding Abilities in Large Vision-Language Models [29.825619120260164]
本稿では,映像と映像の視覚的共通性を活かして,映像LVLMをビデオLVLMに進化させることによる課題に対処する。
本稿では、モデルアーキテクチャを強化し、革新的なトレーニング戦略を導入し、最も効果的なタイプのビデオ命令データを特定する、費用対効果のあるビデオLVLMを提案する。
論文 参考訳(メタデータ) (2024-06-12T09:22:45Z) - MovieLLM: Enhancing Long Video Understanding with AI-Generated Movies [21.489102981760766]
MovieLLMは、一貫した高品質なビデオデータを合成し、命令のチューニングをするための新しいフレームワークである。
実験により,MovieLLMが生成したデータにより,複雑な映像物語の理解において,マルチモーダルモデルの性能が著しく向上することが確認された。
論文 参考訳(メタデータ) (2024-03-03T07:43:39Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - VideoStudio: Generating Consistent-Content and Multi-Scene Videos [88.88118783892779]
VideoStudioは、一貫したコンテンツとマルチシーンのビデオ生成のためのフレームワークである。
VideoStudioはLarge Language Models (LLM)を活用して、入力プロンプトを総合的なマルチシーンスクリプトに変換する。
VideoStudioは、視覚的品質、コンテンツ整合性、ユーザの好みといった点で、SOTAビデオ生成モデルよりも優れています。
論文 参考訳(メタデータ) (2024-01-02T15:56:48Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Dynamic Storyboard Generation in an Engine-based Virtual Environment for
Video Production [92.14891282042764]
VDS(Virtual Dynamic Storyboard)を導入し,仮想環境でのストーリーボード撮影を可能にする。
形式化されたストーリースクリプトとカメラスクリプトが入力として与えられたら、いくつかのキャラクターアニメーションとカメラムーブメント提案を生成する。
候補から高品質なダイナミックなストーリーボードをピックアップするために,プロのマニュアル作成データから学習したショット品質基準に基づいて,ショットランキング判別器を装備する。
論文 参考訳(メタデータ) (2023-01-30T06:37:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。