論文の概要: AVECL-UMONS database for audio-visual event classification and
localization
- arxiv url: http://arxiv.org/abs/2011.01018v1
- Date: Fri, 2 Oct 2020 14:26:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 02:43:20.764083
- Title: AVECL-UMONS database for audio-visual event classification and
localization
- Title(参考訳): AVECL-UMONSデータベースによる音声・視覚イベントの分類と位置推定
- Authors: Mathilde Brousmiche and St\'ephane Dupont and Jean Rouat
- Abstract要約: AVECL-UMonsデータセットは、2つの異なる部屋で複数の現実的な位置で記録された11のイベントクラスで構成されている。
データセットは、合計5.24時間に対応する2662個のユニラベルシーケンスと2724個のマルチラベルシーケンスからなる。
- 参考スコア(独自算出の注目度): 5.972927416266617
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce the AVECL-UMons dataset for audio-visual event classification
and localization in the context of office environments. The audio-visual
dataset is composed of 11 event classes recorded at several realistic positions
in two different rooms. Two types of sequences are recorded according to the
number of events in the sequence. The dataset comprises 2662 unilabel sequences
and 2724 multilabel sequences corresponding to a total of 5.24 hours. The
dataset is publicly accessible online :
https://zenodo.org/record/3965492#.X09wsobgrCI.
- Abstract(参考訳): AVECL-UMons データセットを導入し,オフィス環境における音声・視覚イベントの分類と位置決めを行う。
視聴覚データセットは、2つの異なる部屋の複数の現実的な位置で記録された11のイベントクラスで構成されている。
2種類のシーケンスは、シーケンス内のイベントの数に応じて記録される。
データセットは、合計5.24時間に対応する2662のunilabelシーケンスと2724のマルチラベルシーケンスからなる。
データセットはオンラインで公開されている。 https://zenodo.org/record/3965492#。
X09wsobgrCI
関連論文リスト
- Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。
この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。
OV-AVEBenchデータセットを提案する。
論文 参考訳(メタデータ) (2024-11-18T04:35:20Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - LibriWASN: A Data Set for Meeting Separation, Diarization, and
Recognition with Asynchronous Recording Devices [18.485147778531985]
We present LibriWASN, a data set that design along the LibriCSS meeting recognition data set。
9つの異なるデバイス、5つのスマートフォンに1つの録音チャンネルと4つのマイクアレイがあり、合計29のチャンネルが記録されている。
データは音声の重複率が異なるサブセットで構成される。
論文 参考訳(メタデータ) (2023-08-21T12:33:35Z) - STARSS23: An Audio-Visual Dataset of Spatial Recordings of Real Scenes
with Spatiotemporal Annotations of Sound Events [30.459545240265246]
音のイベントは通常、視覚的に源となる物体、例えば歩行器の足から発生する音に由来する。
本稿では,音声-視覚的音声イベントの局所化・検出(SELD)タスクを提案する。
オーディオ視覚SELDシステムは、アレーからの信号とオーディオ視覚対応を使って、音イベントを検出し、ローカライズすることができる。
論文 参考訳(メタデータ) (2023-06-15T13:37:14Z) - Dense-Localizing Audio-Visual Events in Untrimmed Videos: A Large-Scale
Benchmark and Baseline [53.07236039168652]
本研究では,未編集映像に発生するすべての音声視覚イベントを共同でローカライズし,認識することを目的とした,濃密な局所化音声視覚イベントの課題に焦点をあてる。
このデータセットには、30万以上のオーディオ・ヴィジュアル・イベントを含む10万本のビデオが含まれている。
次に,様々な長さの音声視覚イベントをローカライズし,それら間の依存関係をひとつのパスでキャプチャする,学習ベースの新しいフレームワークを用いてタスクを定式化する。
論文 参考訳(メタデータ) (2023-03-22T22:00:17Z) - ESB: A Benchmark For Multi-Domain End-to-End Speech Recognition [100.30565531246165]
音声認識システムはデータセット固有のチューニングを必要とする。
このチューニング要件は、他のデータセットやドメインへの一般化に失敗したシステムにつながる可能性がある。
本稿では,1つの自動音声認識システムの性能を評価するために,エンド・ツー・エンド音声ベンチマーク(ESB)を提案する。
論文 参考訳(メタデータ) (2022-10-24T15:58:48Z) - Ambient Sound Helps: Audiovisual Crowd Counting in Extreme Conditions [64.43064637421007]
本稿では,視覚情報と聴覚情報を統合してカウントする,視覚的群集カウントという新しいタスクを紹介する。
大規模なベンチマークであるauDiovISual Crowd cOuntingデータセットを収集します。
我々は,視覚的特徴と聴覚的特徴のアフィン変換を行う線形特徴量融合モジュールを利用する。
論文 参考訳(メタデータ) (2020-05-14T16:05:47Z) - Multi-label Sound Event Retrieval Using a Deep Learning-based Siamese
Structure with a Pairwise Presence Matrix [11.54047475139282]
最先端の音声イベント検索モデルは、シングルラベル音声記録に重点を置いている。
本稿では,シームズ構造とPairwise Presence Matrixを用いたDeep Learningアーキテクチャを提案する。
ネットワークはSONYC-USTデータセットを用いて訓練・評価され、シングルラベルとマルチラベルのサウンドスケープが記録される。
論文 参考訳(メタデータ) (2020-02-20T21:33:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。