論文の概要: When and How to Cut Classical Concerts? A Multimodal Automated Video Editing Approach
- arxiv url: http://arxiv.org/abs/2510.05661v1
- Date: Tue, 07 Oct 2025 08:18:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-27 22:13:09.391778
- Title: When and How to Cut Classical Concerts? A Multimodal Automated Video Editing Approach
- Title(参考訳): クラシックコンサートをいつ、どのようにカットするか : マルチモーダル自動ビデオ編集アプローチ
- Authors: Daniel Gonzálbez-Biosca, Josep Cabacas-Maso, Carles Ventura, Ismael Benito-Altamirano,
- Abstract要約: 我々は,クラシック音楽コンサートのマルチカメラ録音の編集において,課題を2つの重要なサブタスクに分解することで解決する。
近年の文献に基づいて,時間分割作業のための新しいマルチモーダルアーキテクチャを提案する。
空間選択タスク(カットの方法)では、例えばResNetのような古いバックボーンからCLIPベースのエンコーダで更新し、同じコンサートのセグメントにイントラクタの選択を制限することで、文学を改善する。
- 参考スコア(独自算出の注目度): 9.554646174100123
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automated video editing remains an underexplored task in the computer vision and multimedia domains, especially when contrasted with the growing interest in video generation and scene understanding. In this work, we address the specific challenge of editing multicamera recordings of classical music concerts by decomposing the problem into two key sub-tasks: when to cut and how to cut. Building on recent literature, we propose a novel multimodal architecture for the temporal segmentation task (when to cut), which integrates log-mel spectrograms from the audio signals, plus an optional image embedding, and scalar temporal features through a lightweight convolutional-transformer pipeline. For the spatial selection task (how to cut), we improve the literature by updating from old backbones, e.g. ResNet, with a CLIP-based encoder and constraining distractor selection to segments from the same concert. Our dataset was constructed following a pseudo-labeling approach, in which raw video data was automatically clustered into coherent shot segments. We show that our models outperformed previous baselines in detecting cut points and provide competitive visual shot selection, advancing the state of the art in multimodal automated video editing.
- Abstract(参考訳): 自動ビデオ編集は、特にビデオ生成やシーン理解への関心が高まりつつあるのとは対照的に、コンピュータビジョンやマルチメディア領域において未探索の課題である。
本研究では,クラシック音楽コンサートのマルチカメラ録音の編集に際し,課題を2つの課題に分解する。
近年の文献をベースとして,音声信号から対数メルスペクトルとオプション画像埋め込みと,軽量な畳み込みトランスフォーマーパイプラインによる時空間特徴のスカラー化が可能な,時間分割タスク(カット時)のための新しいマルチモーダルアーキテクチャを提案する。
空間選択タスク(カット方法)では,古いバックボーン,例えばResNetをCLIPベースのエンコーダで更新し,同じコンサートのセグメントにトラクタ選択を制限することで,文学を改善する。
我々のデータセットは擬似ラベル方式で構築され、生のビデオデータが自動的にコヒーレントなショットセグメントにクラスタ化される。
我々は,カットポイントの検出と競合するビジュアルショットの選択において,従来のベースラインよりも優れた性能を示し,マルチモーダル自動ビデオ編集における最先端の進歩を示す。
関連論文リスト
- Video Object Segmentation-Aware Audio Generation [13.505371291069892]
既存のマルチモーダルオーディオ生成モデルは、しばしば正確なユーザ制御を欠いているため、プロのFoleyでは適用性が制限される。
我々は,映像やテキストの手がかりとともに視覚的セグメンテーションマスクを活用することで,制御可能な音声生成を可能にする新しいマルチモーダル生成モデルSAGANetを提案する。
提案手法は,現在の最先端手法よりも大幅に改善され,制御可能で高忠実なフォリー合成のための新しい標準が設定されている。
論文 参考訳(メタデータ) (2025-09-30T17:49:41Z) - Enhancing Scene Transition Awareness in Video Generation via Post-Training [0.4199844472131921]
我々は,複数のシーン遷移を伴う前処理ビデオクリップからなるtextbfTransition-Aware Videoデータセットを提案する。
実験の結果,textbfTAVデータセットのポストトレーニングにより,プロンプトベースのシーン遷移理解が向上し,必要なシーンと生成されたシーンのギャップが狭まり,画質が維持されることがわかった。
論文 参考訳(メタデータ) (2025-07-24T02:50:26Z) - VidToMe: Video Token Merging for Zero-Shot Video Editing [100.79999871424931]
本稿では,フレーム間で自己注意トークンをマージすることで,生成ビデオの時間的一貫性を高める新しい手法を提案する。
本手法は時間的コヒーレンスを改善し,自己アテンション計算におけるメモリ消費を削減する。
論文 参考訳(メタデータ) (2023-12-17T09:05:56Z) - UnLoc: A Unified Framework for Video Localization Tasks [82.59118972890262]
UnLocは、未トリミングビデオにおける時間的ローカライズのための新しいアプローチである。
事前訓練された画像とテキストタワーを使用し、トークンをビデオテキスト融合モデルに供給する。
我々は,3つの異なるローカライゼーションタスクに対して,統一的なアプローチで成果を達成している。
論文 参考訳(メタデータ) (2023-08-21T22:15:20Z) - AutoTransition: Learning to Recommend Video Transition Effects [20.384463765702417]
自動ビデオ遷移レコメンデーション(VTR)の実施について紹介する。
VTRには生のビデオ撮影とオーディオが連続して提供され、隣接する2つのショットごとにビデオ遷移を推奨する。
本稿では,2つの部分からなる新しいマルチモーダルマッチングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-27T12:00:42Z) - MovieCuts: A New Dataset and Benchmark for Cut Type Recognition [114.57935905189416]
本稿では,マルチモーダル情報のモデリングを必要とするカット型認識タスクを提案する。
10種類のカットタイプにラベル付けされた170万以上のビデオクリップを含む大規模なデータセット、MovieCutsを構築した。
我々の最良のモデルは45.7%のmAPを達成しており、これはタスクが困難であり、高精度なカット型認識がオープンな研究課題であることを示している。
論文 参考訳(メタデータ) (2021-09-12T17:36:55Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z) - Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。
APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文 参考訳(メタデータ) (2020-11-05T03:13:46Z) - STEm-Seg: Spatio-temporal Embeddings for Instance Segmentation in Videos [17.232631075144592]
例えば、ビデオのセグメンテーションは、通常、トラッキング・バイ・検出のパラダイムに従っている。
単一段階における時間と空間をまたいだインスタンスのセグメント化と追跡を行う新しい手法を提案する。
提案手法は,複数のデータセットやタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2020-03-18T18:40:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。