論文の概要: MAVD: The First Open Large-Scale Mandarin Audio-Visual Dataset with
Depth Information
- arxiv url: http://arxiv.org/abs/2306.02263v1
- Date: Sun, 4 Jun 2023 05:00:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 18:54:48.612808
- Title: MAVD: The First Open Large-Scale Mandarin Audio-Visual Dataset with
Depth Information
- Title(参考訳): MAVD: 深度情報を備えた初の大規模マンダリンオーディオ-ビジュアルデータセット
- Authors: Jianrong Wang, Yuchen Huo, Li Liu, Tianyi Xu, Qi Li, Sen Li
- Abstract要約: この研究は、64人の中国語話者によって話される12,484発の発声からなる、新しい大規模マンダリンマルチモーダルコーパスであるMAVDを確立する。
データセットがさまざまな実世界のシナリオをカバーすることを保証するため、原文のクリーニングとフィルタリングのためのパイプラインが開発された。
特に、Microsoftの最新のデータ取得デバイスであるAzure Kinectは、データ取得中に従来のオーディオ信号とRGBイメージに加えて、奥行き情報をキャプチャするために使用される。
- 参考スコア(独自算出の注目度): 21.864200803678003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-visual speech recognition (AVSR) gains increasing attention from
researchers as an important part of human-computer interaction. However, the
existing available Mandarin audio-visual datasets are limited and lack the
depth information. To address this issue, this work establishes the MAVD, a new
large-scale Mandarin multimodal corpus comprising 12,484 utterances spoken by
64 native Chinese speakers. To ensure the dataset covers diverse real-world
scenarios, a pipeline for cleaning and filtering the raw text material has been
developed to create a well-balanced reading material. In particular, the latest
data acquisition device of Microsoft, Azure Kinect is used to capture depth
information in addition to the traditional audio signals and RGB images during
data acquisition. We also provide a baseline experiment, which could be used to
evaluate the effectiveness of the dataset. The dataset and code will be
released at https://github.com/SpringHuo/MAVD.
- Abstract(参考訳): 音声-視覚音声認識(AVSR)は、人間とコンピュータの相互作用の重要な部分として研究者から注目を集めている。
しかし、既存のマンダリンオーディオ視覚データセットは制限されており、深度情報がない。
この問題に対処するため、本研究では、64人の中国語話者が話す12,484発話からなる、新しい大規模マンダリンマルチモーダルコーパスであるmavdを確立した。
データセットがさまざまな実世界のシナリオをカバーすることを保証するため、原文のクリーニングとフィルタリングのためのパイプラインが開発され、バランスの取れた読み出し材料が作られた。
特に、microsoftの最新データ取得デバイスであるazure kinectは、データ取得中の従来のオーディオ信号やrgbイメージに加えて、深度情報をキャプチャするために使用される。
また,データセットの有効性を評価するためのベースライン実験も実施した。
データセットとコードはhttps://github.com/SpringHuo/MAVDでリリースされる。
関連論文リスト
- Remastering Divide and Remaster: A Cinematic Audio Source Separation Dataset with Multilingual Support [5.926447149127937]
我々はDivide and Remaster(DnR)データセットのバージョン3を開発する。
本研究は,非対話幹の音声内容,大音量分布,習得過程,言語多様性に関する課題に対処する。
Banditモデルを用いたベンチマークの結果、多言語データのトレーニングはモデルにかなりの一般化性をもたらすことが示された。
論文 参考訳(メタデータ) (2024-07-09T23:39:37Z) - The NeurIPS 2023 Machine Learning for Audio Workshop: Affective Audio Benchmarks and Novel Data [28.23517306589778]
NeurIPS 2023 Machine Learning for Audio Workshopは、さまざまなオーディオドメインから機械学習(ML)の専門家を集めている。
音声感情認識から音声イベント検出まで、音声駆動MLの貴重なタスクはいくつかあるが、他のML領域と比較して、コミュニティは希少である。
高品質なデータ収集は時間がかかり費用がかかるため、学術グループがしばしば最先端の戦略をより大きな、より一般化可能なデータセットに適用することは困難である。
論文 参考訳(メタデータ) (2024-03-21T00:13:59Z) - AV-Deepfake1M: A Large-Scale LLM-Driven Audio-Visual Deepfake Dataset [21.90332221144928]
AV-Deepfake1Mデータセットを提案する。
データセットには、コンテンツ駆動(i)ビデオ操作、(ii)オーディオ操作、(iii)2K以上の被験者に対するオーディオ視覚操作が含まれており、結果として100万以上のビデオが生成される。
論文 参考訳(メタデータ) (2023-11-26T14:17:51Z) - Deepfake audio as a data augmentation technique for training automatic
speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。
インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文 参考訳(メタデータ) (2023-09-22T11:33:03Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research [82.42802570171096]
約400kの音声クリップとペアキャプションを組み合わせた,大規模な音声キャプションデータセットであるWavCapsを紹介した。
オンラインハーベストな生の記述は非常にうるさいし、自動音声キャプションなどのタスクで直接使うには適さない。
本稿では,大規模な言語モデルであるChatGPTを用いて,ノイズの多いデータをフィルタリングし,高品質なキャプションを生成するための3段階処理パイプラインを提案する。
論文 参考訳(メタデータ) (2023-03-30T14:07:47Z) - Separate What You Describe: Language-Queried Audio Source Separation [53.65665794338574]
言語問合せ音声ソース分離(LASS)の課題について紹介する。
LASSは、ターゲットソースの自然言語クエリに基づいて、ターゲットソースをオーディオミックスから分離することを目的としている。
本稿では,音響情報と言語情報を協調処理するエンドツーエンドニューラルネットワークLASS-Netを提案する。
論文 参考訳(メタデータ) (2022-03-28T23:47:57Z) - Automatic Speech Recognition Datasets in Cantonese Language: A Survey
and a New Dataset [85.52036362232688]
私たちのデータセットは、香港のCandoneseオーディオブックから収集された、73.6時間のクリーンな読み上げ音声と書き起こしとの組み合わせで構成されています。
哲学、政治、教育、文化、ライフスタイル、家族の領域を組み合わせて、幅広いトピックをカバーしている。
MDCC と Common Voice zh-HK にマルチデータセット学習を適用することで,強力で堅牢な Cantonese ASR モデルを作成する。
論文 参考訳(メタデータ) (2022-01-07T12:09:15Z) - HUI-Audio-Corpus-German: A high quality TTS dataset [0.0]
HUI-Audio-Corpus-German"は、TTSエンジン用の大規模なオープンソースデータセットで、処理パイプラインで作成されている。
このデータセットは、高品質なオーディオから書き起こしアライメントを生成し、作成に必要な手作業を減らす。
論文 参考訳(メタデータ) (2021-06-11T10:59:09Z) - QuerYD: A video dataset with high-quality text and audio narrations [85.6468286746623]
ビデオの検索とイベントのローカライゼーションのための大規模データセットQuerYDを紹介する。
データセットのユニークな特徴は、ビデオ毎に2つのオーディオトラック(オリジナルオーディオと高品質な音声記述)が利用可能であることです。
YouDescribeは、既存のYouTubeビデオに音声ナレーションを付加することで視覚障害者を支援するボランティアプロジェクトだ。
論文 参考訳(メタデータ) (2020-11-22T17:33:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。