論文の概要: JenBridge: Adaptive Long-Form Video Soundtracking across Scene Transitions
- arxiv url: http://arxiv.org/abs/2606.01703v1
- Date: Mon, 01 Jun 2026 05:12:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.385405
- Title: JenBridge: Adaptive Long-Form Video Soundtracking across Scene Transitions
- Title(参考訳): JenBridge: シーンの遷移を横断する適応的なロングフォームビデオトラック
- Authors: Jiashuo Yu, Yao Yao, Boyu Chen, Alex Wang,
- Abstract要約: JenBridgeは、高忠実度オーディオ生成とトランジッション自然性の両方を保証する、適応的なロングフォームビデオサウンドトラックのためのフレームワークである。
様々なシーンの変化にまたがって長い形式のコヒーレンスを達成するために、JenBridgeは、新しい適応的な遷移メカニズムを取り入れている。
このタスクを厳格に評価するために、キュレートされたデータセットと新しい評価指標を含む新しいベンチマークであるLVSベンチマークを提案する。
- 参考スコア(独自算出の注目度): 23.0545450404763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address the challenge of generating high-fidelity, long-form soundtracks that remain coherent across scene transitions. Existing AI music systems are mainly designed for short, isolated clips and lack mechanisms to ensure narrative continuity. We present JenBridge, a modular and interpretable framework for adaptive long-form video soundtracking that ensures both high-fidelity audio generation and transition naturalness. The core architecture is a Transformer-based generative model trained with a flow-matching objective, following a two-stage paradigm: pretraining on large-scale text-audio corpora to establish robust musical priors, then adapting to the video domain with dual text-visual conditioning for precise cross-modal alignment. Crucially, to achieve long-form coherence across diverse scene changes, JenBridge incorporates a novel adaptive transition mechanism. This system features a versatile toolkit of transition styles, including a generative transition method, and uniquely employs a Large Language Model (LLM) Agent that acts as a director to select the most appropriate transition for each narrative shift intelligently. To rigorously assess this task, we propose the LVS Benchmark, a new benchmark that includes a curated dataset and novel evaluation metrics focusing on holistic and transition-aware assessment. Extensive experiments on the proposed benchmark demonstrate that JenBridge significantly outperforms existing methods in both objective and subjective metrics, particularly in terms of transition naturalness and overall narrative coherence. JenBridge represents a significant step towards fully automated, professional-quality video soundtracking.
- Abstract(参考訳): 我々は,シーン遷移において一貫性のある,高忠実で長大なサウンドトラックを生成するという課題に対処する。
既存のAI音楽システムは、主に短い孤立したクリップと物語の連続性を保証するメカニズムの欠如のために設計されている。
本稿では,高忠実度音声生成とトランジッション自然性の両方を保証し,適応型長大映像追跡のためのモジュラー・解釈可能なフレームワークであるJenBridgeを提案する。
コアアーキテクチャは2段階のパラダイムに従って、フローマッチングの目標をトレーニングしたトランスフォーマーベースの生成モデルである。
重要なことに、さまざまなシーンの変化にまたがって長い形式のコヒーレンスを達成するために、JenBridgeは、新しい適応的な遷移メカニズムを取り入れている。
このシステムは、生成遷移法を含む、遷移スタイルの多用途ツールキットを特徴とし、ディレクターとして機能するLarge Language Model (LLM) Agentを用いて、各物語シフトにインテリジェントに最も適した遷移を選択する。
このタスクを厳格に評価するために,総合的および推移的評価に焦点を当てた,キュレートされたデータセットと新たな評価指標を含む新しいベンチマークであるLVS Benchmarkを提案する。
提案したベンチマーク実験により,JenBridgeは客観的および主観的指標の両方において,特に遷移自然性や全体的物語コヒーレンスの観点から,既存の手法を著しく上回っていることが示された。
JenBridgeは、完全自動化されたプロレベルのビデオサウンドトラックへの重要な一歩だ。
関連論文リスト
- Soap2Soap: Long Cinematic Video Remaking via Multi-Agent Collaboration [61.98029663481308]
Soap2SoapはDualBridgeメカニズムを通じて長期の視覚的一貫性を強制するマルチエージェントフレームワークである。
クローズドループ検証エージェントは、識別、安定性、アライメントを監査し、選択的再生を誘導する。
論文 参考訳(メタデータ) (2026-05-17T12:38:21Z) - DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video Generation [23.171175300622675]
制御可能な人中心オーディオビデオ生成のための統一的なフレームワークを提案する。
DreamID-Omniは、ビデオ、オーディオ、オーディオ・ビジュアルの一貫性をまたいだ総合的な最先端のパフォーマンスを実現する。
学術研究と商用レベルのアプリケーションの間のギャップを埋めるために、コードを公開します。
論文 参考訳(メタデータ) (2026-02-12T16:41:52Z) - STAGE: Storyboard-Anchored Generation for Cinematic Multi-shot Narrative [55.05324155854762]
本稿では,STAGEに基づく映像生成タスクを再構成するStoryboard-Anchored GEnerationワークフローを提案する。
そこで本研究では,スペーサーの代わりに,各ショットの先頭フレーム対からなる構造的ストーリーボードを推定するSTEP2を提案する。
ConStoryBoardの大規模データセットには、ストーリーの進行、映画的属性、人間の嗜好など、高品質な映像クリップが含まれています。
論文 参考訳(メタデータ) (2025-12-13T15:57:29Z) - InfiniteTalk: Audio-driven Video Generation for Sparse-Frame Video Dubbing [66.48064661467781]
我々は、アイデンティティ、象徴的なジェスチャー、カメラ軌跡を維持するために参照を戦略的に保存する新しいパラダイムであるスパースフレームビデオダビングを導入する。
無限長長列ダビング用に設計されたストリーミングオーディオ駆動型ジェネレータであるInfiniteTalkを提案する。
HDTF、CelebV-HQ、EMTDデータセットの総合評価は、最先端の性能を示している。
論文 参考訳(メタデータ) (2025-08-19T17:55:23Z) - SkyReels-Audio: Omni Audio-Conditioned Talking Portraits in Video Diffusion Transformers [25.36460340267922]
SkyReels-Audioは高忠実で時間的コヒーレントなポートレート映像を合成するための統一的なフレームワークである。
我々のフレームワークは、無限長の生成と編集をサポートし、マルチモーダル入力による多様かつ制御可能な条件付けを可能にする。
論文 参考訳(メタデータ) (2025-06-01T04:27:13Z) - Extending Visual Dynamics for Video-to-Music Generation [51.274561293909926]
DyViMは、ビデオから音楽への生成のための動的モデリングを強化する新しいフレームワークである。
高レベルのセマンティクスは、クロスアテンションメカニズムを通じて伝達される。
実験では、DyViMが最先端(SOTA)法よりも優れていることを示した。
論文 参考訳(メタデータ) (2025-04-10T09:47:26Z) - SEINE: Short-to-Long Video Diffusion Model for Generative Transition and
Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。
テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。
我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文 参考訳(メタデータ) (2023-10-31T17:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。