論文の概要: Audiovisual Moments in Time: A Large-Scale Annotated Dataset of
Audiovisual Actions
- arxiv url: http://arxiv.org/abs/2308.09685v1
- Date: Fri, 18 Aug 2023 17:13:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 12:16:19.455884
- Title: Audiovisual Moments in Time: A Large-Scale Annotated Dataset of
Audiovisual Actions
- Title(参考訳): 時間的視覚運動:大規模注釈付き視覚行動データセット
- Authors: Michael Joannou, Pia Rotshtein, Uta Noppeney
- Abstract要約: 本稿では,視覚行動イベントの大規模データセットであるAVMIT(Audiovisual Moments in Time)を紹介する。
データセットには57,177本のオーディオヴィジュアルビデオのアノテーションが含まれており、それぞれが訓練を受けた11人のうち3人によって独立して評価されている。
- 参考スコア(独自算出の注目度): 1.1510009152620668
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We present Audiovisual Moments in Time (AVMIT), a large-scale dataset of
audiovisual action events. In an extensive annotation task 11 participants
labelled a subset of 3-second audiovisual videos from the Moments in Time
dataset (MIT). For each trial, participants assessed whether the labelled
audiovisual action event was present and whether it was the most prominent
feature of the video. The dataset includes the annotation of 57,177 audiovisual
videos, each independently evaluated by 3 of 11 trained participants. From this
initial collection, we created a curated test set of 16 distinct action
classes, with 60 videos each (960 videos). We also offer 2 sets of pre-computed
audiovisual feature embeddings, using VGGish/YamNet for audio data and
VGG16/EfficientNetB0 for visual data, thereby lowering the barrier to entry for
audiovisual DNN research. We explored the advantages of AVMIT annotations and
feature embeddings to improve performance on audiovisual event recognition. A
series of 6 Recurrent Neural Networks (RNNs) were trained on either
AVMIT-filtered audiovisual events or modality-agnostic events from MIT, and
then tested on our audiovisual test set. In all RNNs, top 1 accuracy was
increased by 2.71-5.94\% by training exclusively on audiovisual events, even
outweighing a three-fold increase in training data. We anticipate that the
newly annotated AVMIT dataset will serve as a valuable resource for research
and comparative experiments involving computational models and human
participants, specifically when addressing research questions where audiovisual
correspondence is of critical importance.
- Abstract(参考訳): 本稿では,視覚行動イベントの大規模データセットであるAVMIT(Audiovisual Moments in Time)を紹介する。
広範なアノテーションタスクでは、11人がMoments in Timeデータセット(MIT)から3秒間のオーディオヴィジュアルビデオのサブセットをラベル付けした。
各トライアルで、参加者はラベル付きオーディオビジュアルアクションイベントが存在するか、ビデオの最も顕著な特徴であるかどうかを評価した。
データセットには57,177本のオーディオヴィジュアルビデオのアノテーションが含まれており、それぞれが11人の訓練参加者のうち3人によって独立に評価されている。
この最初のコレクションから、16の異なるアクションクラスからなるキュレートされたテストセットを作成しました。
また、オーディオデータにVGGish/YamNet、視覚データにVGG16/EfficientNetB0を用い、2組の事前計算されたオーディオ視覚機能埋め込みを提供する。
AVMITアノテーションと特徴埋め込みの利点を考察し,音声視覚イベント認識の性能向上に寄与した。
6つのリカレントニューラルネットワーク(rnn)をavmitフィルター付きオーディオビジュアルイベントまたはmitのモダリティ非依存イベントでトレーニングし、オーディオビジュアルテストセットでテストしました。
すべてのRNNにおいて、トップ1の精度は2.71-5.94\%向上し、トレーニングデータよりも3倍に向上した。
我々は、新たにアノテートされたavmitデータセットが、特に音声視覚対応が重要な研究課題に取り組む際に、計算モデルと人間の参加者を含む研究および比較実験の貴重なリソースになることを期待している。
関連論文リスト
- Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。
この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。
OV-AVEBenchデータセットを提案する。
論文 参考訳(メタデータ) (2024-11-18T04:35:20Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Dense-Localizing Audio-Visual Events in Untrimmed Videos: A Large-Scale
Benchmark and Baseline [53.07236039168652]
本研究では,未編集映像に発生するすべての音声視覚イベントを共同でローカライズし,認識することを目的とした,濃密な局所化音声視覚イベントの課題に焦点をあてる。
このデータセットには、30万以上のオーディオ・ヴィジュアル・イベントを含む10万本のビデオが含まれている。
次に,様々な長さの音声視覚イベントをローカライズし,それら間の依存関係をひとつのパスでキャプチャする,学習ベースの新しいフレームワークを用いてタスクを定式化する。
論文 参考訳(メタデータ) (2023-03-22T22:00:17Z) - OLKAVS: An Open Large-Scale Korean Audio-Visual Speech Dataset [14.619865864254924]
Open Large-scale Korean Audio-Visual Speech (OLKAVS)データセットは、一般に公開されている音声視覚音声データセットの中で最大である。
データセットには、韓国語話者1,107人による1,150時間の音声書き起こしが含まれており、9つの異なる視点と様々なノイズ状況がある。
論文 参考訳(メタデータ) (2023-01-16T11:40:50Z) - Audio-visual Generalised Zero-shot Learning with Cross-modal Attention
and Language [38.02396786726476]
マルチモーダル・アテンションを用いて音声・視覚データからマルチモーダル・表現を学習することを提案する。
一般化された音声視覚ゼロショット学習設定では、テスト時間検索空間にすべてのトレーニングクラスを含める。
この領域に統一的なベンチマークがないため、3つのオーディオ視覚データセットに(一般化された)ゼロショット学習ベンチマークを導入する。
論文 参考訳(メタデータ) (2022-03-07T18:52:13Z) - Audiovisual transfer learning for audio tagging and sound event
detection [21.574781022415372]
本研究では,2つの音声認識問題,すなわち音声タグ付けと音声イベント検出における伝達学習の利点について検討する。
我々は、スペクトル音響入力のみを利用したベースラインシステムを適用し、事前訓練された聴覚と視覚的特徴を利用する。
オーディオヴィジュアルなマルチラベルデータセット上で,これらのモデルを用いて実験を行う。
論文 参考訳(メタデータ) (2021-06-09T21:55:05Z) - APES: Audiovisual Person Search in Untrimmed Video [87.4124877066541]
音声人物探索データセット(APES)について述べる。
APESには36時間のビデオにラベル付けされた1,9K以上のIDが含まれている。
APESの重要な特徴は、顔と同一アイデンティティの音声セグメントをリンクする密集した時間アノテーションを含むことである。
論文 参考訳(メタデータ) (2021-06-03T08:16:42Z) - AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。
本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文 参考訳(メタデータ) (2021-05-17T08:36:10Z) - Audiovisual Highlight Detection in Videos [78.26206014711552]
本研究は,タスク上の単一特徴の有効性研究と,一つの特徴を一度に残すアブレーション研究の2つの実験の結果である。
映像要約作業では,視覚的特徴がほとんどの情報を持ち,視覚的特徴を含む視覚的特徴が視覚のみの情報よりも向上することが示唆された。
その結果,映像要約タスクからハイライト検出タスクに特化して訓練されたモデルに知識を伝達できることが示唆された。
論文 参考訳(メタデータ) (2021-02-11T02:24:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。