Fugu-MT 論文翻訳(概要): Epic-Sounds: A Large-scale Dataset of Actions That Sound

論文の概要: Epic-Sounds: A Large-scale Dataset of Actions That Sound

arxiv url: http://arxiv.org/abs/2302.00646v1
Date: Wed, 1 Feb 2023 18:19:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-02 12:39:57.509786
Title: Epic-Sounds: A Large-scale Dataset of Actions That Sound
Title（参考訳）: epic-sounds: アクションの大規模なデータセット
Authors: Jaesung Huh, Jacob Chalk, Evangelos Kazakos, Dima Damen, Andrew Zisserman
Abstract要約: EPIC-SOUNDSには78.4kの分類された音声イベントとアクションがあり、44のクラスと39.2kの非分類セグメントに分散している。我々は、データセット上で2つの最先端オーディオ認識モデルをトレーニングし、評価し、オーディオのみのラベルの重要性を強調した。
参考スコア（独自算出の注目度）: 90.1102766891699
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce EPIC-SOUNDS, a large-scale dataset of audio annotations capturing temporal extents and class labels within the audio stream of the egocentric videos. We propose an annotation pipeline where annotators temporally label distinguishable audio segments and describe the action that could have caused this sound. We identify actions that can be discriminated purely from audio, through grouping these free-form descriptions of audio into classes. For actions that involve objects colliding, we collect human annotations of the materials of these objects (e.g. a glass object being placed on a wooden surface), which we verify from visual labels, discarding ambiguities. Overall, EPIC-SOUNDS includes 78.4k categorised segments of audible events and actions, distributed across 44 classes as well as 39.2k non-categorised segments. We train and evaluate two state-of-the-art audio recognition models on our dataset, highlighting the importance of audio-only labels and the limitations of current models to recognise actions that sound.
Abstract（参考訳）: EPIC-SOUNDSは,エゴセントリックビデオの音声ストリーム内で時間的範囲とクラスラベルをキャプチャする大規模なオーディオアノテーションデータセットである。本稿では,アノテータが時間的に識別可能な音声セグメントをラベル付けするアノテーションパイプラインを提案する。これらの自由形式の音声記述をクラスにグループ化することで、純粋にオーディオと区別できるアクションを識別する。物体が衝突する行為については、これらの物体の材料(例えば、木面に置かれているガラス物体)の人間の注釈を収集し、視覚ラベルから確認し、曖昧さを破棄する。全体としてEPIC-SOUNDSは78.4kの分類された音声イベントとアクションのセグメントを含み、44のクラスにまたがる。 2つの最先端オーディオ認識モデルをデータセット上でトレーニングし,評価し,音声のみのラベルの重要性と,その動作を認識するための現在のモデルの限界を強調した。

関連論文リスト

Dynamic Derivation and Elimination: Audio Visual Segmentation with Enhanced Audio Semantics [26.399212357764576]
本稿では,動的導出・除去(DDESeg: Dynamic Derivation and Elimination)を提案する。 DDESegは、特徴混乱を軽減するため、混合音声信号の意味内容を再構成する。マッチングの難しさを軽減するために,識別的特徴学習モジュールを導入する。
論文参考訳（メタデータ） (2025-03-17T05:38:05Z)
Discovering Sounding Objects by Audio Queries for Audio Visual Segmentation [36.50512269898893]
音質オブジェクトとサイレントオブジェクトを区別するためには、音声と視覚のセマンティック対応と時間的相互作用が必要である。我々はAQFormerアーキテクチャを提案し、オーディオ情報に基づいてオブジェクトクエリのセットを定義する。提案手法は,MS3設定における最先端性能,特に7.1%のM_J,7.6%のM_Fゲインを実現する。
論文参考訳（メタデータ） (2023-09-18T05:58:06Z)
AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文参考訳（メタデータ） (2023-08-23T18:20:59Z)
BAVS: Bootstrapping Audio-Visual Segmentation by Integrating Foundation Knowledge [43.92428145744478]
音声・視覚のセグメンテーションを行う2段階のブートストラップフレームワークを提案する。第1段階では,視覚データから潜在的聴覚オブジェクトを局所化するためにセグメンテーションモデルを用いる。第2段階では、音響-視覚的セマンティック統合戦略(AVIS)を開発し、音響-音響オブジェクトをローカライズする。
論文参考訳（メタデータ） (2023-08-20T06:48:08Z)
Audio-Visual Segmentation by Exploring Cross-Modal Mutual Semantics [26.473529162341837]
本稿では,データセットバイアスを克服するために,音声-視覚的インスタンス認識セグメンテーション手法を提案する。提案手法は,まずオブジェクト分割ネットワークによって映像中の潜在的音像を位置決めし,その音像候補と所定の音声を関連付ける。 AVSベンチマークによる実験結果から,本手法は健全な物体に偏ることなく効果的に音響オブジェクトを分割できることが示されている。
論文参考訳（メタデータ） (2023-07-31T12:56:30Z)
Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文参考訳（メタデータ） (2023-07-27T17:59:59Z)
STARSS23: An Audio-Visual Dataset of Spatial Recordings of Real Scenes with Spatiotemporal Annotations of Sound Events [30.459545240265246]
音のイベントは通常、視覚的に源となる物体、例えば歩行器の足から発生する音に由来する。本稿では,音声-視覚的音声イベントの局所化・検出(SELD)タスクを提案する。オーディオ視覚SELDシステムは、アレーからの信号とオーディオ視覚対応を使って、音イベントを検出し、ローカライズすることができる。
論文参考訳（メタデータ） (2023-06-15T13:37:14Z)
A dataset for Audio-Visual Sound Event Detection in Movies [33.59510253345295]
サブタイトルアラインド・ムービー・サウンド(SAM-S)と呼ばれる音声イベントのデータセットを提示する。 430本の映画から110K以上のオーディオイベントを自動的にマイニングするために、公開可能なクローズド・キャプション・トランスクリプトを使用します。音声イベントを分類するためには,音,ソース,品質の3つの次元を識別し,245音の最終分類法を作成するためのステップを提示する。
論文参考訳（メタデータ） (2023-02-14T19:55:39Z)
Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention [54.4258176885084]
曖昧な音を正確に認識する方法は、音声キャプションにとって大きな課題である。本稿では,視覚情報を利用して不明瞭な音の物体の記述を支援する視覚認識型音声キャプションを提案する。提案手法は,機械翻訳メトリクスの最先端結果を実現する。
論文参考訳（メタデータ） (2022-10-28T22:45:41Z)
AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文参考訳（メタデータ） (2022-09-30T10:17:05Z)
Class-aware Sounding Objects Localization via Audiovisual Correspondence [51.39872698365446]
複雑な視覚的シナリオにおける音像の局所化と認識を行うための2段階の学習フレームワークを提案する。我々は、カクテルパーティーのシナリオでクラス認識オブジェクトのローカライズマップを生成し、サイレントエリアの抑制にオーディオ視覚対応を使用する。実写ビデオと合成ビデオの両方の実験では、オブジェクトのローカライズと認識だけでなく、サイレントビデオのフィルタリングにも優れていることが示されている。
論文参考訳（メタデータ） (2021-12-22T09:34:33Z)
Learning Speech Representations from Raw Audio by Joint Audiovisual Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文参考訳（メタデータ） (2020-07-08T14:07:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。