論文の概要: CN-Celeb-AV: A Multi-Genre Audio-Visual Dataset for Person Recognition
- arxiv url: http://arxiv.org/abs/2305.16049v1
- Date: Thu, 25 May 2023 13:31:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 14:59:39.356265
- Title: CN-Celeb-AV: A Multi-Genre Audio-Visual Dataset for Person Recognition
- Title(参考訳): CN-Celeb-AV: 人物認識のための多世代オーディオビジュアルデータセット
- Authors: Lantian Li and Xiaolou Li and Haoyu Jiang and Chen Chen and Ruihai Hou
and Dong Wang
- Abstract要約: 本稿では,CN-Celeb-AVという,野生で収集された多世代AVPRデータセットを提案する。
このデータセットには、パブリックメディアから1,136人の420万以上のビデオセグメントが含まれている。
- 参考スコア(独自算出の注目度): 12.968270806370256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-visual person recognition (AVPR) has received extensive attention.
However, most datasets used for AVPR research so far are collected in
constrained environments, and thus cannot reflect the true performance of AVPR
systems in real-world scenarios. To meet the request for research on AVPR in
unconstrained conditions, this paper presents a multi-genre AVPR dataset
collected `in the wild', named CN-Celeb-AV. This dataset contains more than
420k video segments from 1,136 persons from public media. In particular, we put
more emphasis on two real-world complexities: (1) data in multiple genres; (2)
segments with partial information. A comprehensive study was conducted to
compare CN-Celeb-AV with two popular public AVPR benchmark datasets, and the
results demonstrated that CN-Celeb-AV is more in line with real-world scenarios
and can be regarded as a new benchmark dataset for AVPR research. The dataset
also involves a development set that can be used to boost the performance of
AVPR systems in real-life situations. The dataset is free for researchers and
can be downloaded from http://cnceleb.org/.
- Abstract(参考訳): audio-visual person recognition (avpr) が注目されている。
しかし、これまでのAVPR研究に用いられるほとんどのデータセットは制約のある環境で収集されているため、実際のシナリオにおけるAVPRシステムの真のパフォーマンスを反映することはできない。
本研究では,非拘束条件下でのAVPR研究の要請に応えるため,CN-Celeb-AVという「野生」で収集された多世代AVPRデータセットを提案する。
このデータセットには、公開メディアの1,136人のビデオセグメントが420k以上含まれている。
特に,(1)複数のジャンルのデータ,(2)部分的な情報を含むセグメントという2つの現実世界の複雑さを強調する。
CN-Celeb-AVを2つのパブリックなAVPRベンチマークデータセットと比較する総合的研究を行い、その結果、CN-Celeb-AVは現実世界のシナリオと一致しており、AVPR研究の新しいベンチマークデータセットとみなすことができることを示した。
データセットには、実際の状況下でのAVPRシステムのパフォーマンス向上に使用できる開発セットも含まれている。
データセットは研究者は無料で、http://cnceleb.org/からダウンロードできる。
関連論文リスト
- Open-Vocabulary Audio-Visual Semantic Segmentation [12.330521982730836]
AVSSタスクをアノテートされたラベル空間を超えたオープンワールドシナリオに拡張する。
1)音声と視覚の融合を行い、全ての潜在的な聴覚オブジェクトを見つけるための普遍的な音源定位モジュールと,2)大規模事前学習型視覚言語モデルからの事前知識の助けを借りてカテゴリを予測するオープン語彙分類モジュールと,からなる,最初のオープン語彙型AVSSフレームワークであるOV-AVSSを提案する。
論文 参考訳(メタデータ) (2024-07-31T16:14:09Z) - Separating the "Chirp" from the "Chat": Self-supervised Visual Grounding of Sound and Language [77.33458847943528]
DenseAVは、ビデオ視聴のみで高解像度、意味論的、音声視覚的に整合した特徴を学習する、新しいデュアルエンコーダ基盤アーキテクチャである。
そこで本研究では,DenseAVによる単語の「意味」と音の「位置」の特定が可能であることを明らかにした。
論文 参考訳(メタデータ) (2024-06-09T03:38:21Z) - AV-Deepfake1M: A Large-Scale LLM-Driven Audio-Visual Deepfake Dataset [21.90332221144928]
AV-Deepfake1Mデータセットを提案する。
データセットには、コンテンツ駆動(i)ビデオ操作、(ii)オーディオ操作、(iii)2K以上の被験者に対するオーディオ視覚操作が含まれており、結果として100万以上のビデオが生成される。
論文 参考訳(メタデータ) (2023-11-26T14:17:51Z) - Leveraging Foundation models for Unsupervised Audio-Visual Segmentation [49.94366155560371]
AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。
既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。
タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
論文 参考訳(メタデータ) (2023-09-13T05:05:47Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Annotation-free Audio-Visual Segmentation [46.42570058385209]
追加の手動アノテーションを使わずにオーディオ・ビジュアル・タスクのための人工データを生成する新しいパイプラインを提案する。
既存の画像セグメンテーションとオーディオデータセットを活用し、画像とマスクのペアをカテゴリラベルを用いて対応するオーディオサンプルとマッチングする。
また,SAMA-AVSの軽量モデルを導入し,AVSタスクに事前訓練されたセグメントの任意のモデル(SAM)を適応させる。
論文 参考訳(メタデータ) (2023-05-18T14:52:45Z) - AV-data2vec: Self-supervised Learning of Audio-Visual Speech
Representations with Contextualized Target Representations [88.30635799280923]
AV-data2vecを導入し、文脈化表現の予測に基づいて音声・視覚表現を構築する。
LRS3の結果は、AV-data2vecが、同じ量のデータとモデルサイズで既存のメソッドを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-10T02:55:52Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - A Comprehensive Survey on Video Saliency Detection with Auditory
Information: the Audio-visual Consistency Perceptual is the Key! [25.436683033432086]
ビデオサリエンシ検出(VSD)は、あるビデオクリップの中で最も魅力的なオブジェクト/モノ/パターンを素早く見つけ出すことを目的としている。
本稿では,音声・視覚融合と唾液度検出のギャップを埋めるために,広範囲なレビューを行う。
論文 参考訳(メタデータ) (2022-06-20T07:25:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。