論文の概要: AutoMV: An Automatic Multi-Agent System for Music Video Generation
- arxiv url: http://arxiv.org/abs/2512.12196v1
- Date: Sat, 13 Dec 2025 05:53:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.153805
- Title: AutoMV: An Automatic Multi-Agent System for Music Video Generation
- Title(参考訳): AutoMV:音楽ビデオ生成のためのマルチエージェントシステム
- Authors: Xiaoxuan Tang, Xinping Lei, Chaoran Zhu, Shiyun Chen, Ruibin Yuan, Yizhi Li, Changjae Oh, Ge Zhang, Wenhao Huang, Emmanouil Benetos, Yang Liu, Jiaheng Liu, Yinghao Ma,
- Abstract要約: AutoMVは、歌から直接フルミュージックビデオ(MV)を生成するマルチエージェントシステムである。
商用製品、AutoMV、人間指向MVと熟練した人間のレーダを比較するためにベンチマークが適用された。
- 参考スコア(独自算出の注目度): 49.29602419334139
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Music-to-Video (M2V) generation for full-length songs faces significant challenges. Existing methods produce short, disjointed clips, failing to align visuals with musical structure, beats, or lyrics, and lack temporal consistency. We propose AutoMV, a multi-agent system that generates full music videos (MVs) directly from a song. AutoMV first applies music processing tools to extract musical attributes, such as structure, vocal tracks, and time-aligned lyrics, and constructs these features as contextual inputs for following agents. The screenwriter Agent and director Agent then use this information to design short script, define character profiles in a shared external bank, and specify camera instructions. Subsequently, these agents call the image generator for keyframes and different video generators for "story" or "singer" scenes. A Verifier Agent evaluates their output, enabling multi-agent collaboration to produce a coherent longform MV. To evaluate M2V generation, we further propose a benchmark with four high-level categories (Music Content, Technical, Post-production, Art) and twelve ine-grained criteria. This benchmark was applied to compare commercial products, AutoMV, and human-directed MVs with expert human raters: AutoMV outperforms current baselines significantly across all four categories, narrowing the gap to professional MVs. Finally, we investigate using large multimodal models as automatic MV judges; while promising, they still lag behind human expert, highlighting room for future work.
- Abstract(参考訳): フル長の曲のためのミュージック・トゥ・ビデオ(M2V)生成は大きな課題に直面している。
既存の方法では短い、切り離されたクリップを生成し、視覚を音楽構造、ビート、歌詞に合わせることができず、時間的一貫性が欠如している。
楽曲から直接フルミュージックビデオ(MV)を生成するマルチエージェントシステムであるAutoMVを提案する。
AutoMVはまず、構造、ボーカルトラック、タイムアラインな歌詞などの音楽属性を抽出するために音楽処理ツールを適用し、これらの特徴を後続エージェントの文脈入力として構成する。
脚本家エージェントと監督エージェントは、この情報を使用してショートスクリプトを設計し、文字プロファイルを共有外部バンクで定義し、カメラ命令を指定する。
その後、これらのエージェントは、キーフレームのイメージジェネレータと、"ストーリー"や"歌手"のシーンの異なるビデオジェネレータを呼び出す。
検証エージェントは、その出力を評価し、マルチエージェント協調によりコヒーレントな長形MVを生成する。
さらに,M2V生成を評価するために,音楽コンテンツ,技術,ポストプロダクション,アートの4つのハイレベルなカテゴリと,12のインセグリーな基準のベンチマークを提案する。
このベンチマークは、商用製品、AutoMV、人間指向のMVと、熟練した人間のレーナーを比較するために適用された: AutoMVは、4つのカテゴリすべてで現在のベースラインを大幅に上回り、プロのMVとのギャップを狭める。
最後に,大規模なマルチモーダルモデルを自動MVジャッジとして使用することを検討する。
関連論文リスト
- MAViS: A Multi-Agent Framework for Long-Sequence Video Storytelling [24.22367257991941]
MAViSは、長時間のビデオストーリーテリングを支援するために設計されたマルチエージェント協調フレームワークである。
スクリプト作成、ショットデザイン、キャラクターモデリング、生成、ビデオアニメーション、オーディオ生成など、複数のステージにまたがる特殊エージェントを編成する。
簡単なアイデア記述だけで、MAViSは、高品質で完全なロングシーケンス動画を効率よく生成することで、様々なビジュアルなストーリーテリングと、シーケンシャルなビデオ生成のための創造的な方向を素早く探索することができる。
論文 参考訳(メタデータ) (2025-08-11T21:42:41Z) - Let Your Video Listen to Your Music! [62.27731415767459]
本稿では,音楽トラックのリズムに合わせてビデオを自動的に編集する新しいフレームワークMVAAを提案する。
我々は、タスクをMVAAの2段階のプロセスにモジュール化し、動きをオーディオビートと整列させ、次にリズム対応のビデオ編集を行います。
このハイブリッドアプローチは、CogVideoX-5b-I2Vをバックボーンとして使用した1つのNVIDIA 4090 GPU上で10分以内の適応を可能にする。
論文 参考訳(メタデータ) (2025-06-23T17:52:16Z) - AniMaker: Multi-Agent Animated Storytelling with MCTS-Driven Clip Generation [50.63646953706144]
AniMakerは、効率的なマルチ候補クリップ生成とストーリーテリング対応クリップ選択を可能にするフレームワークである。
AniMakerは、VBenchや提案したAniEvalフレームワークなど、一般的なメトリクスによって測定される、優れた品質を実現しています。
論文 参考訳(メタデータ) (2025-06-12T10:06:21Z) - Cross-Modal Learning for Music-to-Music-Video Description Generation [22.27153318775917]
音楽-音楽-ビデオ(MV)生成は、音楽とビデオのモダリティに固有の違いがあるため、難しい課題である。
本研究では,MV記述生成タスクに着目し,包括的パイプラインを提案する。
新たに構築した音楽-MV記述データセット上で,既存の学習済みマルチモーダルモデルを微調整する。
論文 参考訳(メタデータ) (2025-03-14T08:34:28Z) - GVMGen: A General Video-to-Music Generation Model with Hierarchical Attentions [13.9134271174972]
本稿では,映像入力に高関連音楽を生成するための一般ビデオ・音楽生成モデル(GVMGen)を提案する。
本モデルでは,映像特徴を空間次元と時間次元の両方で抽出・アライメントするために階層的注意を用いた。
提案手法は,ゼロショットシナリオにおいても,異なるビデオ入力からマルチスタイルの楽曲を生成することが可能である。
論文 参考訳(メタデータ) (2025-01-17T06:30:11Z) - VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [76.3175166538482]
VideoGen-of-Thought(VGoT)は、単一の文から複数ショットのビデオ合成を自動化するステップバイステップのフレームワークである。
VGoTは、ナラティブな断片化、視覚的不整合、トランジションアーティファクトの3つの課題に対処する。
トレーニング不要のパイプラインで組み合わせられたVGoTは、ショット内面の一貫性が20.4%、スタイルの一貫性が17.4%向上した。
論文 参考訳(メタデータ) (2024-12-03T08:33:50Z) - StoryAgent: Customized Storytelling Video Generation via Multi-Agent Collaboration [88.94832383850533]
CSVG(Customized Storytelling Video Generation)のためのマルチエージェントフレームワークを提案する。
StoryAgentはCSVGを特殊エージェントに割り当てられた個別のサブタスクに分解し、プロの制作プロセスを反映する。
具体的には、撮影時間内整合性を高めるために、カスタマイズされたイメージ・ツー・ビデオ(I2V)手法であるLoRA-BEを導入する。
コントリビューションには、ビデオ生成タスクのための汎用フレームワークであるStoryAgentの導入や、プロタゴニストの一貫性を維持するための新しい技術が含まれている。
論文 参考訳(メタデータ) (2024-11-07T18:00:33Z) - Anim-Director: A Large Multimodal Model Powered Agent for Controllable Animation Video Generation [36.46957675498949]
Anim-Directorは、自律的なアニメーション作成エージェントである。
LMMと生成AIツールの高度な理解と推論能力を活用する。
プロセス全体は、手作業による介入なしに、特に自律的である。
論文 参考訳(メタデータ) (2024-08-19T08:27:31Z) - VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling [71.01050359126141]
ビデオ入力に対応する音楽を生成するためのフレームワークであるVidMuseを提案する。
VidMuseは、ビデオと音響的、意味的に一致した高忠実な音楽を生成する。
論文 参考訳(メタデータ) (2024-06-06T17:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。