論文の概要: Do VSR Models Generalize Beyond LRS3?
- arxiv url: http://arxiv.org/abs/2311.14063v1
- Date: Thu, 23 Nov 2023 15:42:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 23:18:22.158049
- Title: Do VSR Models Generalize Beyond LRS3?
- Title(参考訳): VSRモデルはRS3を超えて一般化されるか?
- Authors: Yasser Abdelaziz Dahou Djilali, Sanath Narayan, Eustache Le Bihan,
Haithem Boussaid, Ebtessam Almazrouei, Merouane Debbah
- Abstract要約: 我々はWildVSRという新しい視覚音声認識テストセットを構築した。
我々は、現在のVSRモデルが新しいテストデータに一般化される範囲を評価し、分析する。
以上の結果から,単語誤り率の増加は,LSS3テストセットよりわずかに困難で野生の唇配列に一般化できないモデルが原因であることが示唆された。
- 参考スコア(独自算出の注目度): 6.445678506595094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Lip Reading Sentences-3 (LRS3) benchmark has primarily been the focus of
intense research in visual speech recognition (VSR) during the last few years.
As a result, there is an increased risk of overfitting to its excessively used
test set, which is only one hour duration. To alleviate this issue, we build a
new VSR test set named WildVSR, by closely following the LRS3 dataset creation
processes. We then evaluate and analyse the extent to which the current VSR
models generalize to the new test data. We evaluate a broad range of publicly
available VSR models and find significant drops in performance on our test set,
compared to their corresponding LRS3 results. Our results suggest that the
increase in word error rates is caused by the models inability to generalize to
slightly harder and in the wild lip sequences than those found in the LRS3 test
set. Our new test benchmark is made public in order to enable future research
towards more robust VSR models.
- Abstract(参考訳): Lip Reading Sentences-3 (LRS3) ベンチマークは、ここ数年、視覚音声認識(VSR)における激しい研究の焦点となっている。
その結果、過度に使用されるテストセットに過度に適合するリスクが高まり、これは1時間しか続かない。
この問題を緩和するために、LSS3データセット生成プロセスに密接に従えば、WildVSRという新しいVSRテストセットを構築します。
次に、現在のVSRモデルが新しいテストデータに一般化される範囲を評価し、分析する。
我々は、利用可能なVSRモデルを幅広く評価し、対応するLSS3結果と比較して、テストセットの性能が大幅に低下することを示した。
以上の結果から,単語誤り率の増加は,LSS3テストセットよりもわずかに困難で野生の唇配列に一般化できないモデルが原因であることが示唆された。
我々の新しいテストベンチマークは、より堅牢なVSRモデルに向けた将来の研究を可能にするために公開されています。
関連論文リスト
- Investigating the Robustness of Counterfactual Learning to Rank Models: A Reproducibility Study [61.64685376882383]
ランク付け学習(CLTR: Counterfactual Learning to rank)は、IRコミュニティにおいて、ログ化された大量のユーザインタラクションデータを活用してランキングモデルをトレーニングする能力において、大きな注目を集めている。
本稿では,複雑かつ多様な状況における既存のCLTRモデルのロバスト性について検討する。
その結果, DLAモデルとIPS-DCMは, PS-PBMやPSSよりも, オフラインの確率推定による堅牢性が高いことがわかった。
論文 参考訳(メタデータ) (2024-04-04T10:54:38Z) - BRAVEn: Improving Self-Supervised Pre-training for Visual and Auditory Speech Recognition [72.51848069125822]
本稿では,RAVEn法の拡張であるBRAVEnを提案する。
RAVEnの修正により、BRAVEnは自己教師付き手法で最先端の結果を得ることができる。
以上の結果から,手軽に手軽に利用できる音声視覚データが,コストのかかる書き起こしデータに置き換わる可能性が示唆された。
論文 参考訳(メタデータ) (2024-04-02T16:48:20Z) - LiteVSR: Efficient Visual Speech Recognition by Learning from Speech
Representations of Unlabeled Data [9.049193356646635]
提案手法は,訓練されたコンフォーマーベースASRモデルから知識を抽出し,標準VSRベンチマーク上での競合性能を実現する。
我々のモデルは、数日以内に1つのコンシューマグレードのGPUでトレーニングでき、日付のハードウェア上でリアルタイムのエンドツーエンドのVSRを実行することができる。
論文 参考訳(メタデータ) (2023-12-15T12:04:24Z) - HypR: A comprehensive study for ASR hypothesis revising with a reference
corpus [11.43365699777826]
本研究では,ASR仮説修正データセット(HypR)を公表する。
HypRはいくつかの一般的なコーパスを含み、各発話に対して50の認識仮説を提供する。
我々は,音声認識結果の改訂における最近の研究の進展を示すために,いくつかの古典的,代表的手法を実装し,比較する。
論文 参考訳(メタデータ) (2023-09-18T14:55:21Z) - Benchmarking Large Language Models in Retrieval-Augmented Generation [53.504471079548]
大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。
我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。
RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
論文 参考訳(メタデータ) (2023-09-04T08:28:44Z) - SynthVSR: Scaling Up Visual Speech Recognition With Synthetic
Supervision [60.54020550732634]
視覚音声認識(VSR)における合成視覚データの利用の可能性について検討する。
鍵となるアイデアは、入力音声に条件付き唇の動きを生成する音声駆動の唇アニメーションモデルを活用することである。
我々は,最大公的なVSRベンチマークであるLip Reading Sentences 3 (LRS3)に対するアプローチの有効性を評価する。
論文 参考訳(メタデータ) (2023-03-30T07:43:27Z) - Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels [100.43280310123784]
トレーニングセットのサイズを増大させるために,未ラベルデータセットの自動書き起こしの使用について検討した。
近年の文献的傾向であるトレーニングセットのサイズが大きくなると、ノイズのある書き起こしを用いたにもかかわらずWERが減少することが実証された。
提案手法は,RS2 と LRS3 の AV-ASR 上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-25T00:37:34Z) - Reveal to Revise: An Explainable AI Life Cycle for Iterative Bias
Correction of Deep Models [11.879170124003252]
最先端の機械学習モデルは、トレーニングデータに埋め込まれた急激な相関を学習することが多い。
これにより、これらのモデルを高い意思決定のためにデプロイする際のリスクが生じる。
そこで我々はReveal to Revise (R2R)を提案する。
論文 参考訳(メタデータ) (2023-03-22T15:23:09Z) - Stable Long-Term Recurrent Video Super-Resolution [0.45880283710344055]
リプシッツ安定性理論に基づいて、安定かつ競争力のある再帰VSRネットワークの新たな枠組みを導入する。
本稿では,この枠組みに基づいて,MRVSR(Middle Recurrent Video Super-Resolution)と呼ばれる新たなリカレントVSRネットワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T15:12:52Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。