論文の概要: AutoMatch: A Large-scale Audio Beat Matching Benchmark for Boosting Deep
Learning Assistant Video Editing
- arxiv url: http://arxiv.org/abs/2303.01884v1
- Date: Fri, 3 Mar 2023 12:30:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-06 15:16:10.329203
- Title: AutoMatch: A Large-scale Audio Beat Matching Benchmark for Boosting Deep
Learning Assistant Video Editing
- Title(参考訳): automatch: ディープラーニングアシスタントによるビデオ編集を促進する、大規模なオーディオビートマッチングベンチマーク
- Authors: Sen Pei, Jingya Yu, Qi Chen, Wozhou He
- Abstract要約: 短いビデオリソースは、多くのビデオクリエーターが貢献する貴重な編集作業とは独立してはならない。
本稿では、背景音楽に基づく適切な遷移時間スタンプを推奨するオーディオビートマッチング(ABM)について検討する。
この技術は、ビデオ編集中の労働集約的な作業を容易にし、クリエーターのエネルギを節約し、ビデオコンテンツのクリエイティビティに集中できるようにする。
- 参考スコア(独自算出の注目度): 7.672758847025309
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The explosion of short videos has dramatically reshaped the manners people
socialize, yielding a new trend for daily sharing and access to the latest
information. These rich video resources, on the one hand, benefited from the
popularization of portable devices with cameras, but on the other, they can not
be independent of the valuable editing work contributed by numerous video
creators. In this paper, we investigate a novel and practical problem, namely
audio beat matching (ABM), which aims to recommend the proper transition time
stamps based on the background music. This technique helps to ease the
labor-intensive work during video editing, saving energy for creators so that
they can focus more on the creativity of video content. We formally define the
ABM problem and its evaluation protocol. Meanwhile, a large-scale audio
dataset, i.e., the AutoMatch with over 87k finely annotated background music,
is presented to facilitate this newly opened research direction. To further lay
solid foundations for the following study, we also propose a novel model termed
BeatX to tackle this challenging task. Alongside, we creatively present the
concept of label scope, which eliminates the data imbalance issues and assigns
adaptive weights for the ground truth during the training procedure in one
stop. Though plentiful short video platforms have flourished for a long time,
the relevant research concerning this scenario is not sufficient, and to the
best of our knowledge, AutoMatch is the first large-scale dataset to tackle the
audio beat matching problem. We hope the released dataset and our competitive
baseline can encourage more attention to this line of research. The dataset and
codes will be made publicly available.
- Abstract(参考訳): 短いビデオの爆発は、人々のソーシャル化の方法を大きく変え、日々の共有と最新の情報へのアクセスの新しいトレンドを生み出した。
これらのリッチなビデオリソースは、カメラ付きポータブルデバイスの普及の恩恵を受けているが、一方では、多くのビデオクリエーターが貢献する貴重な編集作業とは独立してはならない。
本稿では,背景音楽に基づく適切な遷移時間スタンプを推奨することを目的とした,オーディオビートマッチング(ABM)という,新規で実用的な問題について検討する。
このテクニックは、ビデオ編集中の労働集約的な作業を楽にし、クリエイターがビデオコンテンツのクリエイティビティにもっと集中できるようにエネルギーを節約する。
ABM問題とその評価プロトコルを正式に定義する。
一方、大規模なオーディオデータセット、すなわち87k以上の注釈付きバックグラウンド音楽を備えたAutoMatchは、この新たな研究の方向性を促進するために提示される。
さらに,この課題に取り組むために,beatxと呼ばれる新しいモデルを提案する。
また,ラベルスコープという概念を創造的に提示し,データの不均衡を解消し,学習過程における基礎的真理に対する適応的重みをワンストップで割り当てる。
長い期間にわたって短いビデオプラットフォームが栄えてきたが、このシナリオに関する関連する研究は不十分であり、私たちの知る限り、AutoMatchはオーディオビートマッチング問題に対処する最初の大規模データセットである。
リリースされたデータセットと私たちの競争ベースラインが、この研究のラインにもっと注意を向けてくれることを期待しています。
データセットとコードは公開される予定だ。
関連論文リスト
- Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization [70.13218512896032]
テキストプロンプトから音声を生成することは、音楽や映画産業におけるそのようなプロセスの重要な側面である。
我々の仮説は、これらのオーディオ生成の側面が、限られたデータの存在下でのオーディオ生成性能をどのように改善するかに焦点を当てている。
我々は、各プロンプトが勝者の音声出力と、拡散モデルが学習するための敗者音声出力を持つ選好データセットを合成的に作成する。
論文 参考訳(メタデータ) (2024-04-15T17:31:22Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Towards Robust and Truly Large-Scale Audio-Sheet Music Retrieval [4.722882736419499]
クロスモーダル・ディープ・ラーニング(英語版)は、2つの異なるモーダル(オーディオと楽譜)を繋ぐジョイント埋め込み空間を学習するために用いられる。
過去数年間、この領域は着実に改善されてきたが、多くのオープンな問題が依然としてこの手法の大規模採用を妨げている。
実シナリオにおけるロバストで大規模なクロスモーダル音楽検索への道のりの主な課題を同定する。
論文 参考訳(メタデータ) (2023-09-21T15:11:16Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - AutoTransition: Learning to Recommend Video Transition Effects [20.384463765702417]
自動ビデオ遷移レコメンデーション(VTR)の実施について紹介する。
VTRには生のビデオ撮影とオーディオが連続して提供され、隣接する2つのショットごとにビデオ遷移を推奨する。
本稿では,2つの部分からなる新しいマルチモーダルマッチングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-27T12:00:42Z) - Modality-Balanced Embedding for Video Retrieval [21.81705847039759]
我々はビデオエンコーダがほぼ完全にテキストマッチングに依存しているモダリティバイアス現象を同定する。
MBVR(Modality Balanced Video Retrievalの略)とMBVR(Modality Balanced Video Retrievalの略)の2つの主要コンポーネントを提案する。
本手法は,モダリティバイアス問題の解法において有効かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-04-18T06:29:46Z) - MERLOT Reserve: Neural Script Knowledge through Vision and Language and
Sound [90.1857707251566]
MERLOT Reserveは、時間とともに動画を共同で表現するモデルである。
我々は、テキストとオーディオのスニペットをMASKトークンに置き換え、正しいマスクアウトスニペットを選択して学習する。
私たちの目標は代替手段よりも早く学習し、大規模に機能します。
論文 参考訳(メタデータ) (2022-01-07T19:00:21Z) - APES: Audiovisual Person Search in Untrimmed Video [87.4124877066541]
音声人物探索データセット(APES)について述べる。
APESには36時間のビデオにラベル付けされた1,9K以上のIDが含まれている。
APESの重要な特徴は、顔と同一アイデンティティの音声セグメントをリンクする密集した時間アノテーションを含むことである。
論文 参考訳(メタデータ) (2021-06-03T08:16:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。