Fugu-MT 論文翻訳(概要): Video-Robin: Autoregressive Diffusion Planning for Intent-Grounded Video-to-Music Generation

論文の概要: Video-Robin: Autoregressive Diffusion Planning for Intent-Grounded Video-to-Music Generation

arxiv url: http://arxiv.org/abs/2604.17656v2
Date: Wed, 22 Apr 2026 20:49:39 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-24 14:40:06.011457
Title: Video-Robin: Autoregressive Diffusion Planning for Intent-Grounded Video-to-Music Generation
Title（参考訳）: Video-Robin: Intent-Grounded Video-to-Music 生成のための自己回帰拡散計画
Authors: Vaibhavi Lokegaonkar, Aryan Vijay Bhosale, Vishnu Raj, Gouthaman KV, Ramani Duraiswami, Lie Lu, Sreyan Ghosh, Dinesh Manocha,
Abstract要約: ビデオ・トゥ・ミュージック(V2M)は、入力ビデオの背景音楽を作成するための基本的なタスクである。ビデオコンテンツのための高速で高品質でセマンティックに整合した音楽生成を可能にする,新しいテキスト調和型ビデオ-音楽生成モデルであるVideo-Robinを提案する。
参考スコア（独自算出の注目度）: 58.326977744404566
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Video-to-music (V2M) is the fundamental task of creating background music for an input video. Recent V2M models achieve audiovisual alignment by typically relying on visual conditioning alone and provide limited semantic and stylistic controllability to the end user. In this paper, we present Video-Robin, a novel text-conditioned video-to-music generation model that enables fast, high-quality, semantically aligned music generation for video content. To balance musical fidelity and semantic understanding, Video-Robin integrates autoregressive planning with diffusion-based synthesis. Specifically, an autoregressive module models global structure by semantically aligning visual and textual inputs to produce high-level music latents. These latents are subsequently refined into coherent, high-fidelity music using local Diffusion Transformers. By factoring semantically driven planning into diffusion-based synthesis, Video-Robin enables fine-grained creator control without sacrificing audio realism. Our proposed model outperforms baselines that solely accept video input and additional feature conditioned baselines on both in-distribution and out-of-distribution benchmarks with a 2.21x speed in inference compared to SOTA. We will open-source everything upon paper acceptance.
Abstract（参考訳）: ビデオ・トゥ・ミュージック(V2M)は、入力ビデオの背景音楽を作成するための基本的なタスクである。近年のV2Mモデルでは、視覚条件のみに依存して視覚的アライメントを実現し、エンドユーザに限定的なセマンティックおよびスタイリスティックな制御機能を提供する。本稿では,ビデオコンテンツに対して,高速かつ高品質でセマンティックに整合した音楽生成を可能にする,新しいテキスト条件付きビデオ-音楽生成モデルであるVideo-Robinを提案する。音楽の忠実さと意味理解のバランスをとるために、ビデオロビンは自己回帰計画と拡散に基づく合成を統合する。特に、自己回帰モジュールは、視覚的およびテキスト的入力を意味的に整合させて、高レベルの音楽ラテントを生成することで、グローバルな構造をモデル化する。これらの潜伏音はその後、局所拡散変換器を用いてコヒーレントで高忠実な音楽に洗練される。意味論的に駆動されたプランニングを拡散ベース合成に分解することで、Video-Robinはオーディオリアリズムを犠牲にすることなく、きめ細かいクリエータ制御を可能にする。提案手法は,SOTAと比較して2.21倍の速度で,映像入力のみを受け入れるベースラインと,配信内および配信外の両方に特徴条件付きベースラインを付加する。私たちは受理後、全てをオープンソースにします。

関連論文リスト

ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [47.14083940177122]
ThinkSoundは、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。提案手法は,3つの相補的な段階 – セマンティック・コヒーレント,インタラクティブなオブジェクト中心の改良,ターゲット編集 – に分解する。実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-06-26T16:32:06Z)
Let Your Video Listen to Your Music! [62.27731415767459]
本稿では,音楽トラックのリズムに合わせてビデオを自動的に編集する新しいフレームワークMVAAを提案する。我々は、タスクをMVAAの2段階のプロセスにモジュール化し、動きをオーディオビートと整列させ、次にリズム対応のビデオ編集を行います。このハイブリッドアプローチは、CogVideoX-5b-I2Vをバックボーンとして使用した1つのNVIDIA 4090 GPU上で10分以内の適応を可能にする。
論文参考訳（メタデータ） (2025-06-23T17:52:16Z)
MusicFlow: Cascaded Flow Matching for Text Guided Music Generation [53.63948108922333]
MusicFlowは、フローマッチングに基づくケースドテキストから音楽への生成モデルである。学習目的としてマスク予測を活用することで,音楽の充実や継続といった他のタスクにモデルを一般化することができる。
論文参考訳（メタデータ） (2024-10-27T15:35:41Z)
VMAS: Video-to-Music Generation via Semantic Alignment in Web Music Videos [32.741262543860934]
ビデオ入力からバックグラウンド音楽を生成する学習フレームワークを提案する。我々は,新しいセマンティック・ビデオ・ミュージックアライメント・スキームを用いた生成型ビデオ・ミュージック・トランスフォーマーを開発した。新しい時間的ビデオエンコーダアーキテクチャにより、多くの高密度なサンプルフレームからなる映像を効率的に処理できる。
論文参考訳（メタデータ） (2024-09-11T17:56:48Z)
Compositional Video Generation as Flow Equalization [72.88137795439407]
大規模テキスト・トゥ・ビデオ拡散モデル(T2V)は、最近、自然言語記述を驚くべき、フォトリアリスティックなビデオに変換する前例のない能力を示した。有望な結果にもかかわらず、これらのモデルは複数の概念と行動の間の複雑な構成的相互作用を完全に把握するのに苦労する。我々は、すべての概念が適切に表現されることを明確に保証する合成ビデオ生成のための一般的なフレームワークであるbftextVicoを紹介する。
論文参考訳（メタデータ） (2024-06-10T16:27:47Z)
Dance Any Beat: Blending Beats with Visuals in Dance Video Generation [12.018432669719742]
音楽によってガイドされた個人の画像から直接ダンスビデオを生成するという新しいタスクを導入する。我々のソリューションであるDance Any Beat Diffusion Model (DabFusion)は、参照画像と楽曲を使用してダンスビデオを生成する。 AIST++データセットを用いてDabFusionの性能評価を行い,映像品質,オーディオ・ビデオ同期,モーション・ミュージックアライメントに着目した。
論文参考訳（メタデータ） (2024-05-15T11:33:07Z)
Video2Music: Suitable Music Generation from Videos using an Affective Multimodal Transformer model [32.801213106782335]
我々は、提供されたビデオにマッチできる生成型音楽AIフレームワーク、Video2Musicを開発した。そこで本研究では,映像コンテンツにマッチする楽曲を感情的に生成する手法を提案する。
論文参考訳（メタデータ） (2023-11-02T03:33:00Z)
V2Meow: Meowing to the Visual Beat via Video-to-Music Generation [47.076283429992664]
V2Meow(V2Meow)は、様々な種類のビデオ入力に対して高品質な音楽オーディオを制作できるビデオ・音楽生成システムである。ビデオフレームから抽出した訓練済みの汎用視覚特徴を条件づけて、高忠実度オーディオ波形を合成する。
論文参考訳（メタデータ） (2023-05-11T06:26:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。