論文の概要: Evaluation of End-to-End Continuous Spanish Lipreading in Different Data Conditions
- arxiv url: http://arxiv.org/abs/2502.00464v1
- Date: Sat, 01 Feb 2025 15:48:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:59:42.587601
- Title: Evaluation of End-to-End Continuous Spanish Lipreading in Different Data Conditions
- Title(参考訳): 異なるデータ条件下でのエンド・ツー・エンド連続スパニッシュリリーディングの評価
- Authors: David Gimeno-Gómez, Carlos-D. Martínez-Hinarejos,
- Abstract要約: 本稿では,スペイン語の自動連続唇読解法における顕著な進歩について述べる。
異なる性質の2つのコーパスで実験を行い、最先端の結果を得た。
厳密な誤り解析を行い、自動システムの学習に影響を与える様々な要因について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Visual speech recognition remains an open research problem where different challenges must be considered by dispensing with the auditory sense, such as visual ambiguities, the inter-personal variability among speakers, and the complex modeling of silence. Nonetheless, recent remarkable results have been achieved in the field thanks to the availability of large-scale databases and the use of powerful attention mechanisms. Besides, multiple languages apart from English are nowadays a focus of interest. This paper presents noticeable advances in automatic continuous lipreading for Spanish. First, an end-to-end system based on the hybrid CTC/Attention architecture is presented. Experiments are conducted on two corpora of disparate nature, reaching state-of-the-art results that significantly improve the best performance obtained to date for both databases. In addition, a thorough ablation study is carried out, where it is studied how the different components that form the architecture influence the quality of speech recognition. Then, a rigorous error analysis is carried out to investigate the different factors that could affect the learning of the automatic system. Finally, a new Spanish lipreading benchmark is consolidated. Code and trained models are available at https://github.com/david-gimeno/evaluating-end2end-spanish-lipreading.
- Abstract(参考訳): 視覚的音声認識は、視覚的あいまいさ、話者間の個人間変動、沈黙の複雑なモデリングなどの聴覚的感覚を欠くことによって、様々な課題を考慮しなければならないオープンな研究課題である。
それにもかかわらず、大規模データベースの可用性と強力なアテンション機構の利用により、この分野において最近の顕著な成果が得られている。
また、現代では英語以外の複数の言語が関心を集めている。
本稿では,スペイン語の自動連続唇読解法における顕著な進歩について述べる。
まず,ハイブリッドCTC/Attentionアーキテクチャに基づくエンドツーエンドシステムを提案する。
2つの異なる性質のコーパスで実験を行い、両者のデータベースで得られた最高の性能を大幅に向上させる最先端の結果を得た。
さらに、アーキテクチャを形成する異なるコンポーネントが音声認識の質にどのように影響するかについて、徹底的なアブレーション研究を行った。
そして、厳密な誤り解析を行い、自動システムの学習に影響を与える様々な要因について調査する。
最後に、新しいスペインのリップリーディングベンチマークが統合される。
コードとトレーニングされたモデルはhttps://github.com/david-gimeno/evaluating-end2end-spanish-lipreading.comで公開されている。
関連論文リスト
- Speaker-Adapted End-to-End Visual Speech Recognition for Continuous
Spanish [0.0]
本稿では,特定の人物を対象としたエンド・ツー・エンドシステムの評価が,音声認識の品質に与える影響について検討する。
現在の技術に匹敵する結果は、限られた量のデータしか入手できなかった場合でも到達した。
論文 参考訳(メタデータ) (2023-11-21T09:44:33Z) - LIP-RTVE: An Audiovisual Database for Continuous Spanish in the Wild [0.0]
本稿では,制約のない自然スペイン語を扱うための半自動注釈付き音声視覚データベースを提案する。
隠れマルコフモデルを用いて話者に依存しないシナリオと話者に依存しないシナリオの両方の結果を報告する。
論文 参考訳(メタデータ) (2023-11-21T09:12:21Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Language identification as improvement for lip-based biometric visual
systems [13.205817167773443]
本稿では,口唇運動に基づく視覚的(聴覚のない)識別システムの性能を高めるために,言語情報を軟式生体認証特性として用いる予備研究について述べる。
これらのデータの統合により,提案した視覚システムの識別性能が大幅に向上したことを報告した。
論文 参考訳(メタデータ) (2023-02-27T15:44:24Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Integrating Knowledge in End-to-End Automatic Speech Recognition for
Mandarin-English Code-Switching [41.88097793717185]
Code-Switching (CS) は多言語コミュニティでよく見られる言語現象である。
本稿では,マンダリン・イングリッシュCS音声におけるエンドツーエンド音声認識の検討について述べる。
論文 参考訳(メタデータ) (2021-12-19T17:31:15Z) - Automated Speech Scoring System Under The Lens: Evaluating and
interpreting the linguistic cues for language proficiency [26.70127591966917]
従来の機械学習モデルを用いて、音声認識タスクを分類と回帰問題の両方として定式化する。
まず,5つのカテゴリー(頻度,発音,内容,文法,語彙,音響)で言語学の特徴を抽出し,応答を学習する。
比較すると,回帰に基づくモデルでは,分類法と同等かそれ以上の性能があることがわかった。
論文 参考訳(メタデータ) (2021-11-30T06:28:58Z) - Improving Cross-Lingual Reading Comprehension with Self-Training [62.73937175625953]
現在の最新モデルは、いくつかのベンチマークで人間のパフォーマンスを上回っています。
前作では、ゼロショットのクロスリンガル読解のための事前訓練された多言語モデルの能力を明らかにしている。
本稿では,ラベルのないデータを利用して性能を向上する。
論文 参考訳(メタデータ) (2021-05-08T08:04:30Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。