論文の概要: Epic-Sounds: A Large-scale Dataset of Actions That Sound
- arxiv url: http://arxiv.org/abs/2302.00646v1
- Date: Wed, 1 Feb 2023 18:19:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-02 12:39:57.509786
- Title: Epic-Sounds: A Large-scale Dataset of Actions That Sound
- Title(参考訳): epic-sounds: アクションの大規模なデータセット
- Authors: Jaesung Huh, Jacob Chalk, Evangelos Kazakos, Dima Damen, Andrew
Zisserman
- Abstract要約: EPIC-SOUNDSには78.4kの分類された音声イベントとアクションがあり、44のクラスと39.2kの非分類セグメントに分散している。
我々は、データセット上で2つの最先端オーディオ認識モデルをトレーニングし、評価し、オーディオのみのラベルの重要性を強調した。
- 参考スコア(独自算出の注目度): 90.1102766891699
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce EPIC-SOUNDS, a large-scale dataset of audio annotations
capturing temporal extents and class labels within the audio stream of the
egocentric videos. We propose an annotation pipeline where annotators
temporally label distinguishable audio segments and describe the action that
could have caused this sound. We identify actions that can be discriminated
purely from audio, through grouping these free-form descriptions of audio into
classes. For actions that involve objects colliding, we collect human
annotations of the materials of these objects (e.g. a glass object being placed
on a wooden surface), which we verify from visual labels, discarding
ambiguities. Overall, EPIC-SOUNDS includes 78.4k categorised segments of
audible events and actions, distributed across 44 classes as well as 39.2k
non-categorised segments. We train and evaluate two state-of-the-art audio
recognition models on our dataset, highlighting the importance of audio-only
labels and the limitations of current models to recognise actions that sound.
- Abstract(参考訳): EPIC-SOUNDSは,エゴセントリックビデオの音声ストリーム内で時間的範囲とクラスラベルをキャプチャする大規模なオーディオアノテーションデータセットである。
本稿では,アノテータが時間的に識別可能な音声セグメントをラベル付けするアノテーションパイプラインを提案する。
これらの自由形式の音声記述をクラスにグループ化することで、純粋にオーディオと区別できるアクションを識別する。
物体が衝突する行為については、これらの物体の材料(例えば、木面に置かれているガラス物体)の人間の注釈を収集し、視覚ラベルから確認し、曖昧さを破棄する。
全体としてEPIC-SOUNDSは78.4kの分類された音声イベントとアクションのセグメントを含み、44のクラスにまたがる。
2つの最先端オーディオ認識モデルをデータセット上でトレーニングし,評価し,音声のみのラベルの重要性と,その動作を認識するための現在のモデルの限界を強調した。
関連論文リスト
- AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - BAVS: Bootstrapping Audio-Visual Segmentation by Integrating Foundation
Knowledge [43.92428145744478]
音声・視覚のセグメンテーションを行う2段階のブートストラップフレームワークを提案する。
第1段階では,視覚データから潜在的聴覚オブジェクトを局所化するためにセグメンテーションモデルを用いる。
第2段階では、音響-視覚的セマンティック統合戦略(AVIS)を開発し、音響-音響オブジェクトをローカライズする。
論文 参考訳(メタデータ) (2023-08-20T06:48:08Z) - Audio-Visual Segmentation by Exploring Cross-Modal Mutual Semantics [26.473529162341837]
本稿では,データセットバイアスを克服するために,音声-視覚的インスタンス認識セグメンテーション手法を提案する。
提案手法は,まずオブジェクト分割ネットワークによって映像中の潜在的音像を位置決めし,その音像候補と所定の音声を関連付ける。
AVSベンチマークによる実験結果から,本手法は健全な物体に偏ることなく効果的に音響オブジェクトを分割できることが示されている。
論文 参考訳(メタデータ) (2023-07-31T12:56:30Z) - STARSS23: An Audio-Visual Dataset of Spatial Recordings of Real Scenes
with Spatiotemporal Annotations of Sound Events [30.459545240265246]
音のイベントは通常、視覚的に源となる物体、例えば歩行器の足から発生する音に由来する。
本稿では,音声-視覚的音声イベントの局所化・検出(SELD)タスクを提案する。
オーディオ視覚SELDシステムは、アレーからの信号とオーディオ視覚対応を使って、音イベントを検出し、ローカライズすることができる。
論文 参考訳(メタデータ) (2023-06-15T13:37:14Z) - A dataset for Audio-Visual Sound Event Detection in Movies [33.59510253345295]
サブタイトルアラインド・ムービー・サウンド(SAM-S)と呼ばれる音声イベントのデータセットを提示する。
430本の映画から110K以上のオーディオイベントを自動的にマイニングするために、公開可能なクローズド・キャプション・トランスクリプトを使用します。
音声イベントを分類するためには,音,ソース,品質の3つの次元を識別し,245音の最終分類法を作成するためのステップを提示する。
論文 参考訳(メタデータ) (2023-02-14T19:55:39Z) - Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention [54.4258176885084]
曖昧な音を正確に認識する方法は、音声キャプションにとって大きな課題である。
本稿では,視覚情報を利用して不明瞭な音の物体の記述を支援する視覚認識型音声キャプションを提案する。
提案手法は,機械翻訳メトリクスの最先端結果を実現する。
論文 参考訳(メタデータ) (2022-10-28T22:45:41Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Class-aware Sounding Objects Localization via Audiovisual Correspondence [51.39872698365446]
複雑な視覚的シナリオにおける音像の局所化と認識を行うための2段階の学習フレームワークを提案する。
我々は、カクテルパーティーのシナリオでクラス認識オブジェクトのローカライズマップを生成し、サイレントエリアの抑制にオーディオ視覚対応を使用する。
実写ビデオと合成ビデオの両方の実験では、オブジェクトのローカライズと認識だけでなく、サイレントビデオのフィルタリングにも優れていることが示されている。
論文 参考訳(メタデータ) (2021-12-22T09:34:33Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。