論文の概要: Solving Copyright Infringement on Short Video Platforms: Novel Datasets and an Audio Restoration Deep Learning Pipeline
- arxiv url: http://arxiv.org/abs/2504.21772v1
- Date: Wed, 30 Apr 2025 16:17:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.090642
- Title: Solving Copyright Infringement on Short Video Platforms: Novel Datasets and an Audio Restoration Deep Learning Pipeline
- Title(参考訳): 短いビデオプラットフォームにおける著作権侵害の解決:新しいデータセットとオーディオ再生深層学習パイプライン
- Authors: Minwoo Oh, Minsu Park, Eunil Park,
- Abstract要約: YouTube ShortsやTikTokのようなショートビデオプラットフォームは、著作権の遵守という大きな課題に直面している。
侵害者は、しばしば任意のバックグラウンド音楽(BGM)を、不明瞭なオリジナルサウンドトラック(OST)に埋め込む。
音楽音源分離(MSS)と相互モーダルビデオ音楽検索(CMVMR)を統合した新しいパイプラインを提案する。
提案手法は、任意のBGMを元のOSTから効果的に分離し、真のビデオオーディオトラックの復元を可能にする。
- 参考スコア(独自算出の注目度): 2.819725769698229
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Short video platforms like YouTube Shorts and TikTok face significant copyright compliance challenges, as infringers frequently embed arbitrary background music (BGM) to obscure original soundtracks (OST) and evade content originality detection. To tackle this issue, we propose a novel pipeline that integrates Music Source Separation (MSS) and cross-modal video-music retrieval (CMVMR). Our approach effectively separates arbitrary BGM from the original OST, enabling the restoration of authentic video audio tracks. To support this work, we introduce two domain-specific datasets: OASD-20K for audio separation and OSVAR-160 for pipeline evaluation. OASD-20K contains 20,000 audio clips featuring mixed BGM and OST pairs, while OSVAR160 is a unique benchmark dataset comprising 1,121 video and mixed-audio pairs, specifically designed for short video restoration tasks. Experimental results demonstrate that our pipeline not only removes arbitrary BGM with high accuracy but also restores OSTs, ensuring content integrity. This approach provides an ethical and scalable solution to copyright challenges in user-generated content on short video platforms.
- Abstract(参考訳): YouTube ShortsやTikTokのようなショートビデオプラットフォームは、著作権保護の重大な課題に直面している。
この問題に対処するため,音楽音源分離 (MSS) と相互モーダルビデオ音楽検索 (CMVMR) を統合した新しいパイプラインを提案する。
提案手法は、任意のBGMを元のOSTから効果的に分離し、真のビデオオーディオトラックの復元を可能にする。
この作業を支援するために、オーディオ分離のためのOASD-20Kとパイプライン評価のためのOSVAR-160という2つのドメイン固有データセットを紹介した。
OASD-20Kには、BGMとOSTのペアが混在した20,000のオーディオクリップが含まれており、OSVAR160は、1,121のビデオと混合オーディオのペアからなるユニークなベンチマークデータセットであり、特に短いビデオ復元タスクのために設計されている。
実験の結果,パイプラインは任意のBGMを高い精度で除去するだけでなく,OSTを復元し,コンテントの整合性を確保することができた。
このアプローチは、短いビデオプラットフォーム上のユーザ生成コンテンツにおける著作権問題に対する倫理的かつスケーラブルな解決策を提供する。
関連論文リスト
- Zero-Shot Audio-Visual Editing via Cross-Modal Delta Denoising [114.39028517171236]
そこで我々は,ゼロショット音声映像編集を導入し,新たなモデルトレーニングを必要とせず,特定のテキストプロンプトに合わせるために,オリジナル音声映像コンテンツを変換する新しいタスクを提案する。
この課題を評価するために、ゼロショットオーディオビデオ編集用に明示的に設計されたベンチマークデータセットAvED-Benchをキュレートする。
AvEDは、AvED-Benchと最近のOAVEデータセットの両方で優れた結果を示し、その一般化能力を検証する。
論文 参考訳(メタデータ) (2025-03-26T17:59:04Z) - Start from Video-Music Retrieval: An Inter-Intra Modal Loss for Cross Modal Retrieval [16.186650169199535]
ペアにない多くのビデオや音楽は互換性があり、データセットの偽陰性ノイズにつながる可能性がある。
新たなイントラ・モーダル(II)損失を解法として提案する。
II-CLVMは、YouTube8Mデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-28T07:06:28Z) - VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling [71.01050359126141]
ビデオ入力に対応する音楽を生成するためのフレームワークであるVidMuseを提案する。
VidMuseは、ビデオと音響的、意味的に一致した高忠実な音楽を生成する。
論文 参考訳(メタデータ) (2024-06-06T17:58:11Z) - Diff-BGM: A Diffusion Model for Video Background Music Generation [16.94631443719866]
ビデオと音楽に関するマルチモーダル情報を提供するために,詳細なアノテーションとショット検出を備えた高品質な音楽ビデオデータセットを提案する。
次に,音楽の多様性や音楽と映像のアライメントなど,音楽の質を評価するための評価指標を提案する。
Diff-BGMフレームワークは、ビデオの背景音楽を自動的に生成し、生成過程において異なる信号を用いて音楽の異なる側面を制御する。
論文 参考訳(メタデータ) (2024-05-20T09:48:36Z) - CATR: Combinatorial-Dependence Audio-Queried Transformer for
Audio-Visual Video Segmentation [43.562848631392384]
音声視覚映像のセグメンテーションは、画像フレーム内の音生成対象のピクセルレベルのマップを生成することを目的としている。
本稿では,それぞれの時間的・空間的次元から音声と映像の特徴を結合した非結合型音声・映像依存性を提案する。
論文 参考訳(メタデータ) (2023-09-18T12:24:02Z) - ECLIPSE: Efficient Long-range Video Retrieval using Sight and Sound [103.28102473127748]
長距離テキスト・ビデオ検索のためのオーディオビジュアル手法を提案する。
私たちのアプローチは、複雑な人間のアクションを捉えた数分のビデオを検索することを目的としています。
我々の手法は2.92倍高速で、2.34倍のメモリ効率を持つ。
論文 参考訳(メタデータ) (2022-04-06T14:43:42Z) - Localizing Visual Sounds the Hard Way [149.84890978170174]
音を発する物体を含む画像であっても、難しい画像断片を明示的に識別するようにネットワークを訓練します。
提案アルゴリズムは,Flickr SoundNetデータセット上での最先端性能を実現する。
最近導入されたVGG-Soundデータセットの新しいアノテーションセットであるVGG-Sound Source(VGG-SS)ベンチマークを紹介します。
論文 参考訳(メタデータ) (2021-04-06T17:38:18Z) - Efficient video integrity analysis through container characterization [77.45740041478743]
本稿では,ビデオ操作に使用するソフトウェアをコンテナベースで識別する手法を提案する。
提案手法は効率的かつ効果的であり,その決定の簡易な説明も可能である。
プリストインを改ざんされたビデオと区別し、編集ソフトを分類することで97.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-01-26T14:13:39Z) - Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。
APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文 参考訳(メタデータ) (2020-11-05T03:13:46Z) - FSD50K: An Open Dataset of Human-Labeled Sound Events [30.42735806815691]
FSD50Kは、AudioSet Ontologyから抽出された200のクラスを手動でラベル付けした100h以上のオーディオクリップを含む、51k以上のオーディオクリップを含むオープンデータセットである。
オーディオクリップはCreative Commonsライセンスでライセンスされており、データセットを自由に配布できる(波形を含む)。
論文 参考訳(メタデータ) (2020-10-01T15:07:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。