論文の概要: LRW-Persian: Lip-reading in the Wild Dataset for Persian Language
- arxiv url: http://arxiv.org/abs/2510.22716v1
- Date: Sun, 26 Oct 2025 15:21:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.336286
- Title: LRW-Persian: Lip-reading in the Wild Dataset for Persian Language
- Title(参考訳): LRW-Persian:ペルシャ語の野生データセットにおけるリップリーディング
- Authors: Zahra Taghizadeh, Mohammad Shahverdikondori, Arian Noori, Alireza Dadgarnia,
- Abstract要約: LRW-ペルシアン(LRW-Persian)は、ペルシア語の単語レベルの読解データセットである。
話者の不一致のトレーニングとテストの分割、広い地域と方言のカバレッジ、リッチなクリック毎のメタデータを提供する。
- 参考スコア(独自算出の注目度): 1.1666234644810893
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lipreading has emerged as an increasingly important research area for developing robust speech recognition systems and assistive technologies for the hearing-impaired. However, non-English resources for visual speech recognition remain limited. We introduce LRW-Persian, the largest in-the-wild Persian word-level lipreading dataset, comprising $743$ target words and over $414{,}000$ video samples extracted from more than $1{,}900$ hours of footage across $67$ television programs. Designed as a benchmark-ready resource, LRW-Persian provides speaker-disjoint training and test splits, wide regional and dialectal coverage, and rich per-clip metadata including head pose, age, and gender. To ensure large-scale data quality, we establish a fully automated end-to-end curation pipeline encompassing transcription based on Automatic Speech Recognition(ASR), active-speaker localization, quality filtering, and pose/mask screening. We further fine-tune two widely used lipreading architectures on LRW-Persian, establishing reference performance and demonstrating the difficulty of Persian visual speech recognition. By filling a critical gap in low-resource languages, LRW-Persian enables rigorous benchmarking, supports cross-lingual transfer, and provides a foundation for advancing multimodal speech research in underrepresented linguistic contexts. The dataset is publicly available at: https://lrw-persian.vercel.app.
- Abstract(参考訳): リップリーディングは、頑健な音声認識システムと聴覚障害者のための補助技術を開発するための、ますます重要な研究分野として発展してきた。
しかし、音声認識のための英語以外のリソースは依然として限られている。
今回紹介するLRW-Persianは、ペルシア語で最大の単語レベルのリリーディングデータセットで、ターゲットワード743ドル、ビデオサンプル414{,}000ドル、計17ドルの番組で1{,}900ドル以上の映像から抽出された。
LRW-Persianは、ベンチマーク対応のリソースとして設計されており、話者分離トレーニングとテストの分割、広範囲の地域および方言のカバレッジ、ヘッドポーズ、年齢、性別を含むリッチなクリック単位のメタデータを提供する。
大規模データ品質を確保するため、自動音声認識(ASR)、アクティブスピーカーのローカライゼーション、品質フィルタリング、ポーズ/マスクスクリーニングに基づく完全自動エンドツーエンドキュレーションパイプラインを構築した。
さらに、LRW-ペルシアン上で広く使われている2つのリップリーディングアーキテクチャを微調整し、参照性能を確立し、ペルシア語視覚音声認識の難しさを実証する。
低リソース言語における重要なギャップを埋めることにより、LRW-Persianは厳密なベンチマークを可能にし、言語間移動をサポートし、低表現の言語文脈におけるマルチモーダル音声研究を促進する基盤を提供する。
データセットは、https://lrw-persian.vercel.app.comで公開されている。
関連論文リスト
- Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning Language-Agnostic Speech Representations [65.59784436914548]
ローマ語文を予測して言語に依存しない音声表現を学習するAV-Romanizerについて紹介する。
予測されたローマ語文を言語固有のグラフエムに変換し、提案したカスケードゼロ-AVSRを形成する。
音声・言語多様性の広帯域化を図るため,MARC(Multilingual Audio-Visual Romanized Corpus)も導入した。
論文 参考訳(メタデータ) (2025-03-08T16:40:13Z) - XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception [62.660135152900615]
音声認識と翻訳システムではノイズの多い入力が不十分である。
XLAVS-Rは、雑音による音声認識と翻訳のための言語間音声・視覚音声表現モデルである。
論文 参考訳(メタデータ) (2024-03-21T13:52:17Z) - Cross-Attention Fusion of Visual and Geometric Features for Large
Vocabulary Arabic Lipreading [3.502468086816445]
リップリーディングは、唇とその周辺領域の動きを分析することによって、音声の認識に視覚データを使用する。
近年の深層学習に基づく研究は,口域から抽出した視覚的特徴を唇輪郭の目印点と統合することを目的としている。
本稿では,ビデオ中の音声単語を予測するために,大語彙アラビア語彙に対するクロスアテンション融合に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-18T09:22:58Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - A Multi-Purpose Audio-Visual Corpus for Multi-Modal Persian Speech
Recognition: the Arman-AV Dataset [2.594602184695942]
本稿では,ペルシャ語のための多目的音声視覚データセットを提案する。
約220時間の動画と1760人の話者で構成されている。
データセットは自動音声認識、音声視覚音声認識、話者認識に適している。
論文 参考訳(メタデータ) (2023-01-21T05:13:30Z) - LipSound2: Self-Supervised Pre-Training for Lip-to-Speech Reconstruction
and Lip Reading [24.744371143092614]
本研究の目的は、ビデオ中の音声と視覚ストリームの自然な共起を利用して、音声再構成(ビデオから音声)のためのクロスモーダル自己教師による事前学習の効果を検討することである。
本稿では,エンコーダ・デコーダアーキテクチャと位置認識型アテンション機構を組み合わせたLipSound2を提案する。
論文 参考訳(メタデータ) (2021-12-09T08:11:35Z) - LRWR: Large-Scale Benchmark for Lip Reading in Russian language [0.0]
Lipreadingは、唇とその周辺領域の視覚的変形を分析して、ビデオから音声の内容を特定することを目的としている。
この分野での研究の大きな障害の1つは、様々な言語に対して適切なデータセットがないことである。
235 のクラスと135 の話者を含む LRWR という名のロシア語でリップリーディングを行うための自然分布ベンチマークを導入する。
論文 参考訳(メタデータ) (2021-09-14T13:51:19Z) - QASR: QCRI Aljazeera Speech Resource -- A Large Scale Annotated Arabic
Speech Corpus [11.113497373432411]
本稿では,放送領域から収集したアラビア語音声コーパス,QASRについて紹介する。
この多言語音声データセットは、アルジャジーラのニュースチャンネルからクロールされた16kHzでサンプリングされた2000時間の音声を含む。
論文 参考訳(メタデータ) (2021-06-24T13:20:40Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。