論文の概要: OLKAVS: An Open Large-Scale Korean Audio-Visual Speech Dataset
- arxiv url: http://arxiv.org/abs/2301.06375v1
- Date: Mon, 16 Jan 2023 11:40:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 16:09:02.858786
- Title: OLKAVS: An Open Large-Scale Korean Audio-Visual Speech Dataset
- Title(参考訳): OLKAVS:韓国の大規模オーディオビジュアル音声データセット
- Authors: Jeongkyun Park, Jung-Wook Hwang, Kwanghee Choi, Seung-Hyun Lee, Jun
Hwan Ahn, Rae-Hong Park, Hyung-Min Park
- Abstract要約: Open Large-scale Korean Audio-Visual Speech (OLKAVS)データセットは、一般に公開されている音声視覚音声データセットの中で最大である。
データセットには、韓国語話者1,107人による1,150時間の音声書き起こしが含まれており、9つの異なる視点と様々なノイズ状況がある。
- 参考スコア(独自算出の注目度): 14.619865864254924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inspired by humans comprehending speech in a multi-modal manner, various
audio-visual datasets have been constructed. However, most existing datasets
focus on English, induce dependencies with various prediction models during
dataset preparation, and have only a small number of multi-view videos. To
mitigate the limitations, we recently developed the Open Large-scale Korean
Audio-Visual Speech (OLKAVS) dataset, which is the largest among publicly
available audio-visual speech datasets. The dataset contains 1,150 hours of
transcribed audio from 1,107 Korean speakers in a studio setup with nine
different viewpoints and various noise situations. We also provide the
pre-trained baseline models for two tasks, audio-visual speech recognition and
lip reading. We conducted experiments based on the models to verify the
effectiveness of multi-modal and multi-view training over uni-modal and
frontal-view-only training. We expect the OLKAVS dataset to facilitate
multi-modal research in broader areas such as Korean speech recognition,
speaker recognition, pronunciation level classification, and mouth motion
analysis.
- Abstract(参考訳): マルチモーダルな方法で人間の音声理解に触発され、様々な視聴覚データセットが構築されている。
しかし、既存のデータセットのほとんどは英語に重点を置いており、データセット準備中に様々な予測モデルへの依存性を誘導し、少数のマルチビュービデオしか持たない。
この制限を緩和するため,我々は最近,公に利用可能な視聴覚音声データセットの中で最大となる大規模韓国語音声-視覚音声(olkavs)データセットを開発した。
データセットには、韓国語話者1,107人による1,150時間の音声書き起こしが含まれている。
また,音声・視覚音声認識と唇読解という2つの課題に対する事前学習ベースラインモデルも提供する。
モデルに基づく実験を行い,マルチモーダルおよびマルチビュートレーニングが,単モーダルおよびフロントビューのみのトレーニングに対して有効であるか検証した。
OLKAVSデータセットは、韓国語音声認識、話者認識、発音レベル分類、口の動き分析など幅広い分野でのマルチモーダルな研究を促進することを期待する。
関連論文リスト
- YODAS: Youtube-Oriented Dataset for Audio and Speech [47.60574092241447]
YODASは100以上の言語で500k時間以上の音声データからなる大規模多言語データセットである。
手動または自動の字幕を含むラベル付きサブセットは、教師付きモデルトレーニングを促進する。
YODASはその規模で最初に公開されたデータセットであり、Creative Commonsライセンスの下で配布されている。
論文 参考訳(メタデータ) (2024-06-02T23:43:27Z) - XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception [62.660135152900615]
音声認識と翻訳システムではノイズの多い入力が不十分である。
XLAVS-Rは、雑音による音声認識と翻訳のための言語間音声・視覚音声表現モデルである。
論文 参考訳(メタデータ) (2024-03-21T13:52:17Z) - Efficient Training for Multilingual Visual Speech Recognition: Pre-training with Discretized Visual Speech Representation [55.15299351110525]
本稿では,1つの訓練されたモデルで異なる言語を認識可能な文レベル多言語視覚音声認識(VSR)について検討する。
視覚音声単位を用いた新しい学習手法を提案する。
我々は、従来の言語固有のVSRモデルに匹敵する性能を達成し、最先端の多言語VSRのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2024-01-18T08:46:02Z) - Teach me with a Whisper: Enhancing Large Language Models for Analyzing
Spoken Transcripts using Speech Embeddings [8.660203441911554]
本稿では,音声データを利用した言語モデルの学習手法を提案する。
これにより、テスト時のオーディオ処理オーバーヘッドを回避しつつ、音声書き起こしを解析するための言語モデルが改善される。
本実験では, 従来の言語モデルに対して, 音声書き起こし解析のタスクにおいて一貫した改善が達成された。
論文 参考訳(メタデータ) (2023-11-13T01:53:12Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and
Dataset [53.46019570679092]
マルチモーダル理解と生成のためのビジョン・オーディエンジュ・オムニ・ペセプション事前学習モデル(VALOR)を提案する。
VALORは、視覚、音声、言語の関係をエンドツーエンドで共同でモデル化する。
一連の公開モダリティベンチマークにおいて、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2023-04-17T15:08:15Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。