論文の概要: A dataset for Audio-Visual Sound Event Detection in Movies
- arxiv url: http://arxiv.org/abs/2302.07315v1
- Date: Tue, 14 Feb 2023 19:55:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-16 16:40:05.690987
- Title: A dataset for Audio-Visual Sound Event Detection in Movies
- Title(参考訳): 映画における視聴覚イベント検出のためのデータセット
- Authors: Rajat Hebbar, Digbalay Bose, Krishna Somandepalli, Veena Vijai,
Shrikanth Narayanan
- Abstract要約: サブタイトルアラインド・ムービー・サウンド(SAM-S)と呼ばれる音声イベントのデータセットを提示する。
430本の映画から110K以上のオーディオイベントを自動的にマイニングするために、公開可能なクローズド・キャプション・トランスクリプトを使用します。
音声イベントを分類するためには,音,ソース,品質の3つの次元を識別し,245音の最終分類法を作成するためのステップを提示する。
- 参考スコア(独自算出の注目度): 33.59510253345295
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio event detection is a widely studied audio processing task, with
applications ranging from self-driving cars to healthcare. In-the-wild datasets
such as Audioset have propelled research in this field. However, many efforts
typically involve manual annotation and verification, which is expensive to
perform at scale. Movies depict various real-life and fictional scenarios which
makes them a rich resource for mining a wide-range of audio events. In this
work, we present a dataset of audio events called Subtitle-Aligned Movie Sounds
(SAM-S). We use publicly-available closed-caption transcripts to automatically
mine over 110K audio events from 430 movies. We identify three dimensions to
categorize audio events: sound, source, quality, and present the steps involved
to produce a final taxonomy of 245 sounds. We discuss the choices involved in
generating the taxonomy, and also highlight the human-centered nature of sounds
in our dataset. We establish a baseline performance for audio-only sound
classification of 34.76% mean average precision and show that incorporating
visual information can further improve the performance by about 5%. Data and
code are made available for research at
https://github.com/usc-sail/mica-subtitle-aligned-movie-sounds
- Abstract(参考訳): オーディオイベント検出は、自動運転車から医療まで、広く研究されているオーディオ処理タスクである。
audiosetのようなwildデータセットは、この分野の研究を促進している。
しかし、多くの取り組みは一般的に手動のアノテーションと検証を伴い、これは大規模に実行するのにコストがかかる。
映画は様々な現実や架空のシナリオを描いており、幅広いオーディオイベントを発掘するための豊富な資源となっている。
本稿では,サブタイトルアライメント映画音(sam-s)と呼ばれる音声イベントのデータセットを提案する。
430本の映画から110K以上のオーディオイベントを自動的にマイニングするために、公開可能なクローズド・キャプション・トランスクリプトを使用します。
音声イベントを分類するためには,音,ソース,品質の3次元を識別し,245音の最終分類法を作成するためのステップを提示する。
分類学の生成に関わる選択について論じ、また、私たちのデータセットにおける音の人間中心の性質を強調する。
音声のみの音響分類におけるベースライン性能を34.76%の平均的精度で確立し,視覚情報の導入により,約5%の性能向上が期待できることを示す。
データとコードはhttps://github.com/usc-sail/mica-subtitle-aligned-movie-soundsで研究されている。
関連論文リスト
- Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - WavJourney: Compositional Audio Creation with Large Language Models [38.39551216587242]
We present WavJourney, a novel framework that leverages Large Language Models to connect various audio model for audio creation。
WavJourneyを使えば、ユーザーはテキストによる説明だけで様々なオーディオ要素でストーリーテリングオーディオコンテンツを作成できる。
We show that WavJourney are capable to synthesize real audio aligned with textual-description semantic, spatial and temporal conditions。
論文 参考訳(メタデータ) (2023-07-26T17:54:04Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - STARSS23: An Audio-Visual Dataset of Spatial Recordings of Real Scenes
with Spatiotemporal Annotations of Sound Events [30.459545240265246]
音のイベントは通常、視覚的に源となる物体、例えば歩行器の足から発生する音に由来する。
本稿では,音声-視覚的音声イベントの局所化・検出(SELD)タスクを提案する。
オーディオ視覚SELDシステムは、アレーからの信号とオーディオ視覚対応を使って、音イベントを検出し、ローカライズすることができる。
論文 参考訳(メタデータ) (2023-06-15T13:37:14Z) - Epic-Sounds: A Large-scale Dataset of Actions That Sound [64.24297230981168]
Epic-Soundsは、時間範囲とクラスラベルをキャプチャする大規模なオーディオアノテーションデータセットである。
我々は、これらの自由形式の音声記述をクラスにまとめることで、純粋に音声と区別できる行動を特定する。
全体として、Epic-Soundsには78.4kの分類された音声イベントとアクションのセグメントがあり、44のクラスにまたがって配布され、39.2kの非分類セグメントが含まれている。
論文 参考訳(メタデータ) (2023-02-01T18:19:37Z) - Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention [54.4258176885084]
曖昧な音を正確に認識する方法は、音声キャプションにとって大きな課題である。
本稿では,視覚情報を利用して不明瞭な音の物体の記述を支援する視覚認識型音声キャプションを提案する。
提案手法は,機械翻訳メトリクスの最先端結果を実現する。
論文 参考訳(メタデータ) (2022-10-28T22:45:41Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - FSD50K: An Open Dataset of Human-Labeled Sound Events [30.42735806815691]
FSD50Kは、AudioSet Ontologyから抽出された200のクラスを手動でラベル付けした100h以上のオーディオクリップを含む、51k以上のオーディオクリップを含むオープンデータセットである。
オーディオクリップはCreative Commonsライセンスでライセンスされており、データセットを自由に配布できる(波形を含む)。
論文 参考訳(メタデータ) (2020-10-01T15:07:25Z) - VGGSound: A Large-scale Audio-Visual Dataset [160.1604237188594]
オープンソースのメディアからオーディオデータセットを作成するために,スケーラブルなパイプラインを提案する。
このパイプラインを使用して、VGGSoundデータセットを310のオーディオクラス用に210万本以上のビデオでキュレートする。
得られたデータセットは、音声認識モデルのトレーニングと評価に使用することができる。
論文 参考訳(メタデータ) (2020-04-29T17:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。