論文の概要: A Multi-Purpose Audio-Visual Corpus for Multi-Modal Persian Speech
Recognition: the Arman-AV Dataset
- arxiv url: http://arxiv.org/abs/2301.10180v1
- Date: Sat, 21 Jan 2023 05:13:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-25 12:47:53.012050
- Title: A Multi-Purpose Audio-Visual Corpus for Multi-Modal Persian Speech
Recognition: the Arman-AV Dataset
- Title(参考訳): マルチモーダルペルシャ音声認識のための多目的音声コーパス:Arman-AVデータセット
- Authors: Javad Peymanfard, Samin Heydarian, Ali Lashini, Hossein Zeinali,
Mohammad Reza Mohammadi, Nasser Mozayani
- Abstract要約: 本稿では,ペルシャ語のための多目的音声視覚データセットを提案する。
約220時間の動画と1760人の話者で構成されている。
データセットは自動音声認識、音声視覚音声認識、話者認識に適している。
- 参考スコア(独自算出の注目度): 2.594602184695942
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, significant progress has been made in automatic lip reading.
But these methods require large-scale datasets that do not exist for many
low-resource languages. In this paper, we have presented a new multipurpose
audio-visual dataset for Persian. This dataset consists of almost 220 hours of
videos with 1760 corresponding speakers. In addition to lip reading, the
dataset is suitable for automatic speech recognition, audio-visual speech
recognition, and speaker recognition. Also, it is the first large-scale lip
reading dataset in Persian. A baseline method was provided for each mentioned
task. In addition, we have proposed a technique to detect visemes (a visual
equivalent of a phoneme) in Persian. The visemes obtained by this method
increase the accuracy of the lip reading task by 7% relatively compared to the
previously proposed visemes, which can be applied to other languages as well.
- Abstract(参考訳): 近年, 口唇の自動読唇において有意な進歩がみられた。
しかしこれらの方法は、多くの低リソース言語には存在しない大規模なデータセットを必要とする。
本稿では,ペルシャ語のための多目的オーディオ視覚データセットを提案する。
このデータセットは、約220時間のビデオと1760の話者で構成されている。
唇読解に加えて、データセットは自動音声認識、音声視覚音声認識、話者認識に適している。
また、ペルシア初の大規模な唇読解データセットである。
各タスクに対してベースラインメソッドが提供された。
また,ペルシャ語におけるビセム(音素の視覚的等価性)を検出する手法も提案した。
この方法により得られたバイセムは他の言語にも適用可能な先行提案のバイセムと比較して、口唇読解タスクの精度を7%向上させる。
関連論文リスト
- Identifying Speakers in Dialogue Transcripts: A Text-based Approach Using Pretrained Language Models [83.7506131809624]
本稿では,デジタルメディアアーカイブにおけるコンテンツアクセシビリティと検索可能性を高める重要な課題である,対話テキスト中の話者名を識別する手法を提案する。
本稿では,メディアサムコーパスから派生した大規模データセットについて述べる。
本稿では,話者名を正確に属性付けるために,対話中の文脈的手がかりを活用する,話者IDに適したトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2024-07-16T18:03:58Z) - Cross-Attention Fusion of Visual and Geometric Features for Large
Vocabulary Arabic Lipreading [3.502468086816445]
リップリーディングは、唇とその周辺領域の動きを分析することによって、音声の認識に視覚データを使用する。
近年の深層学習に基づく研究は,口域から抽出した視覚的特徴を唇輪郭の目印点と統合することを目的としている。
本稿では,ビデオ中の音声単語を予測するために,大語彙アラビア語彙に対するクロスアテンション融合に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-18T09:22:58Z) - Deepfake audio as a data augmentation technique for training automatic
speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。
インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文 参考訳(メタデータ) (2023-09-22T11:33:03Z) - Leveraging Visemes for Better Visual Speech Representation and Lip
Reading [2.7836084563851284]
そこで本研究では,音声学的に類似した唇形状群であるビセムを利用して,より差別的で堅牢な唇読解ビデオ特徴を抽出する手法を提案する。
提案手法は,従来手法と比較して,唇読解単語誤り率(WER)を9.1%削減する。
論文 参考訳(メタデータ) (2023-07-19T17:38:26Z) - An Automatic Speech Recognition System for Bengali Language based on
Wav2Vec2 and Transfer Learning [0.0]
本稿では,移動学習フレームワークに基づくE2E構造に音声認識技術を適用し,ベンガル語の音声認識性能を向上させることを目的とする。
提案手法はベンガル語を効果的にモデル化し,7747サンプルの試験データセット上で,1000サンプルのみを用いた場合,Levenshtein Mean Distance'の3.819スコアを達成した。
論文 参考訳(メタデータ) (2022-09-16T18:20:16Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - Visual Speech Recognition for Multiple Languages in the Wild [64.52593130370757]
より優れたVSRモデルを設計することが、より大きなトレーニングセットを使用する上でも同様に重要であることを示す。
VSRモデルに予測に基づく補助タスクを追加することを提案する。
このようなモデルは、異なる言語で動作し、公開データセット上でトレーニングされたこれまでのすべてのメソッドを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2022-02-26T07:21:00Z) - Data Augmentation for Speech Recognition in Maltese: A Low-Resource
Perspective [4.6898263272139795]
マルタ語における音声認識改善のためのデータ拡張手法を検討する。
本稿では,教師なし学習,多言語学習,合成音声を訓練データとして利用する3つのデータ拡張について考察する。
この結果から,3つのデータ拡張手法を組み合わせることで,言語モデルを用いることなく,WERの絶対値が15%向上することが示唆された。
論文 参考訳(メタデータ) (2021-11-15T14:28:21Z) - Sub-word Level Lip Reading With Visual Attention [88.89348882036512]
我々は、リップリーディングで遭遇するユニークな課題に注目し、調整されたソリューションを提案する。
公開データセット上でのトレーニングにおいて,挑戦的なLSS2とLSS3ベンチマークの最先端結果を得る。
我々の最良のモデルはLRS2データセットで22.6%のワードエラー率を達成する。
論文 参考訳(メタデータ) (2021-10-14T17:59:57Z) - Multitask Training with Text Data for End-to-End Speech Recognition [45.35605825009208]
本稿では,注目に基づくエンドツーエンド音声認識モデルに対するマルチタスク学習手法を提案する。
我々は、音声テキストとテキストのみのデータの両方でマルチタスクでトレーニングすることで、リスニング、アテンション、スペルモデルでデコーダを正規化する。
論文 参考訳(メタデータ) (2020-10-27T14:29:28Z) - A Corpus for Large-Scale Phonetic Typology [112.19288631037055]
本稿では,VoxClamantis v1.0について紹介する。
635言語にまたがる690の音素レベルラベルと690の音素レベルラベルと母音とシビラントの音響・音韻測定を行った。
論文 参考訳(メタデータ) (2020-05-28T13:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。