論文の概要: Bridging High-Quality Audio and Video via Language for Sound Effects
Retrieval from Visual Queries
- arxiv url: http://arxiv.org/abs/2308.09089v1
- Date: Thu, 17 Aug 2023 16:38:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 15:54:48.531635
- Title: Bridging High-Quality Audio and Video via Language for Sound Effects
Retrieval from Visual Queries
- Title(参考訳): ビジュアルクェリからの音響効果検索のための言語による高品質オーディオとビデオのブリッジ
- Authors: Julia Wilkins, Justin Salamon, Magdalena Fuentes, Juan Pablo Bello,
Oriol Nieto
- Abstract要約: ビデオ中のモーメントにマッチする適切なサウンドエフェクト(SFX)を見つけるのは難しく、時間を要する作業です。
ビデオフレームからHQ SFXを推薦するフレームワークを提案する。
自動データキュレーションパイプラインを用いてトレーニングした本システムは,Wildデータに基づいてトレーニングしたベースラインを大幅に上回ることを示す。
- 参考スコア(独自算出の注目度): 18.224608377111533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Finding the right sound effects (SFX) to match moments in a video is a
difficult and time-consuming task, and relies heavily on the quality and
completeness of text metadata. Retrieving high-quality (HQ) SFX using a video
frame directly as the query is an attractive alternative, removing the reliance
on text metadata and providing a low barrier to entry for non-experts. Due to
the lack of HQ audio-visual training data, previous work on audio-visual
retrieval relies on YouTube (in-the-wild) videos of varied quality for
training, where the audio is often noisy and the video of amateur quality. As
such it is unclear whether these systems would generalize to the task of
matching HQ audio to production-quality video. To address this, we propose a
multimodal framework for recommending HQ SFX given a video frame by (1)
leveraging large language models and foundational vision-language models to
bridge HQ audio and video to create audio-visual pairs, resulting in a highly
scalable automatic audio-visual data curation pipeline; and (2) using
pre-trained audio and visual encoders to train a contrastive learning-based
retrieval system. We show that our system, trained using our automatic data
curation pipeline, significantly outperforms baselines trained on in-the-wild
data on the task of HQ SFX retrieval for video. Furthermore, while the
baselines fail to generalize to this task, our system generalizes well from
clean to in-the-wild data, outperforming the baselines on a dataset of YouTube
videos despite only being trained on the HQ audio-visual pairs. A user study
confirms that people prefer SFX retrieved by our system over the baseline 67%
of the time both for HQ and in-the-wild data. Finally, we present ablations to
determine the impact of model and data pipeline design choices on downstream
retrieval performance. Please visit our project website to listen to and view
our SFX retrieval results.
- Abstract(参考訳): ビデオ中のモーメントにマッチする適切なサウンドエフェクト(SFX)を見つけることは難しく、時間を要する作業であり、テキストメタデータの品質と完全性に大きく依存する。
ビデオフレームを直接クエリとして使用する高品質(HQ)のSFXを取得することは魅力的な方法であり、テキストメタデータへの依存を取り除き、非専門家の参入障壁を低くする。
hqオーディオ・ビジュアル・トレーニングデータの欠如により、これまでのオーディオ・ビジュアル検索の作業は、トレーニングのために様々な品質のyoutube(イン・ザ・ワイルド)ビデオに依存している。
そのため、これらのシステムがHQオーディオとプロダクション品質のビデオとをマッチングするタスクに一般化するかどうかは不明である。
そこで本研究では,(1)大規模言語モデルと基本視覚言語モデルを活用して,hq音声と映像の橋渡しを行い,高度にスケーラブルな音声と視覚のデータキュレーションパイプラインを実現すること,(2)事前学習された音声と視覚エンコーダを用いてコントラスト学習に基づく検索システムを学習すること,という,映像フレームを推奨するマルチモーダルフレームワークを提案する。
自動データキュレーションパイプラインを用いてトレーニングした本システムは,ビデオのHQ SFX検索タスクにおいて,現場データに基づいてトレーニングしたベースラインを大幅に上回ることを示す。
さらに,この課題に対してベースラインを一般化することができないが,本システムはクリーンからインザワイルドに一般化し,HQオーディオとビジュアルのペアでのみトレーニングされているにも関わらず,YouTubeビデオのデータセット上でのベースラインよりも優れている。
ユーザスタディでは,本システムで取得したSFXを,HQとIn-the-wildデータの両方において,ベースラインの67%よりも好んでいることを確認した。
最後に,モデルとデータパイプライン設計の選択が下流検索性能に与える影響を決定するため,アブレーションを提案する。
プロジェクトのWebサイトを訪れて、SFXの検索結果を聴き、閲覧してください。
関連論文リスト
- Audio-visual training for improved grounding in video-text LLMs [1.9320359360360702]
本稿では,音声視覚入力を明示的に処理するモデルアーキテクチャを提案する。
我々は、ビデオインストラクションチューニングデータセットからオーディオデータと視覚データの両方でモデルをトレーニングする。
音声-視覚モデルのより良い評価のために、人間による注釈付きベンチマークデータセットもリリースする。
論文 参考訳(メタデータ) (2024-07-21T03:59:14Z) - video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models [27.54879344983513]
Video-SALMONNは、視覚的なフレームシーケンス、オーディオイベント、音楽だけでなく、音声も理解できる。
Video-SALMONNは、他のav-LLMでは前例のないタスクに対して、驚くべきビデオ理解と推論能力を示す。
論文 参考訳(メタデータ) (2024-06-22T01:36:11Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Audiovisual Masked Autoencoders [93.22646144125457]
我々は,音声視覚下層分類タスクにおいて,大幅な改善が達成できることを示す。
また,Epic Kitchens における最先端オーディオ映像の表現の伝達性について述べる。
論文 参考訳(メタデータ) (2022-12-09T17:34:53Z) - Video-Guided Curriculum Learning for Spoken Video Grounding [65.49979202728167]
音声言語記述から所望のビデオ断片をローカライズすることを目的とした,新たなタスクである音声ビデオグラウンドティング(SVG)を導入する。
識別音素の修正と雑音の多い音声から映像関連情報を抽出するために,新しいビデオ指導カリキュラム学習(VGCL)を開発した。
さらに,ActivityNetをベースとした,最初の大規模音声グラウンドデータセットを収集する。
論文 参考訳(メタデータ) (2022-09-01T07:47:01Z) - An investigation on selecting audio pre-trained models for audio
captioning [5.837881923712393]
事前訓練されたモデルは、複雑さが高いため、オーディオキャプションで広く使用されている。
包括的システムが再訓練されない限り、事前訓練されたモデルが音声キャプションシステムにどの程度貢献するかを判断することは困難である。
本稿では,抽出音声特徴量と音声キャプション性能の相関関係について,事前学習した一連のモデルについて検討する。
論文 参考訳(メタデータ) (2022-08-12T06:14:20Z) - MERLOT Reserve: Neural Script Knowledge through Vision and Language and
Sound [90.1857707251566]
MERLOT Reserveは、時間とともに動画を共同で表現するモデルである。
我々は、テキストとオーディオのスニペットをMASKトークンに置き換え、正しいマスクアウトスニペットを選択して学習する。
私たちの目標は代替手段よりも早く学習し、大規模に機能します。
論文 参考訳(メタデータ) (2022-01-07T19:00:21Z) - Weakly Supervised Construction of ASR Systems with Massive Video Data [18.5050375783871]
本稿では,大容量ビデオデータを用いたASRシステム構築のための弱教師付きフレームワークを提案する。
光文字認識(OCR)に基づく映像から高音質音声をテキストに整合して抽出する効果的な手法を提案する。
本フレームワークは,マンダリン音声認識のための6つの公開データセットに対して,最先端の結果を容易に生成することができる。
論文 参考訳(メタデータ) (2020-08-04T03:11:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。