論文の概要: Do VSR Models Generalize Beyond LRS3?
- arxiv url: http://arxiv.org/abs/2311.14063v1
- Date: Thu, 23 Nov 2023 15:42:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 23:18:22.158049
- Title: Do VSR Models Generalize Beyond LRS3?
- Title(参考訳): VSRモデルはRS3を超えて一般化されるか?
- Authors: Yasser Abdelaziz Dahou Djilali, Sanath Narayan, Eustache Le Bihan,
Haithem Boussaid, Ebtessam Almazrouei, Merouane Debbah
- Abstract要約: 我々はWildVSRという新しい視覚音声認識テストセットを構築した。
我々は、現在のVSRモデルが新しいテストデータに一般化される範囲を評価し、分析する。
以上の結果から,単語誤り率の増加は,LSS3テストセットよりわずかに困難で野生の唇配列に一般化できないモデルが原因であることが示唆された。
- 参考スコア(独自算出の注目度): 6.445678506595094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Lip Reading Sentences-3 (LRS3) benchmark has primarily been the focus of
intense research in visual speech recognition (VSR) during the last few years.
As a result, there is an increased risk of overfitting to its excessively used
test set, which is only one hour duration. To alleviate this issue, we build a
new VSR test set named WildVSR, by closely following the LRS3 dataset creation
processes. We then evaluate and analyse the extent to which the current VSR
models generalize to the new test data. We evaluate a broad range of publicly
available VSR models and find significant drops in performance on our test set,
compared to their corresponding LRS3 results. Our results suggest that the
increase in word error rates is caused by the models inability to generalize to
slightly harder and in the wild lip sequences than those found in the LRS3 test
set. Our new test benchmark is made public in order to enable future research
towards more robust VSR models.
- Abstract(参考訳): Lip Reading Sentences-3 (LRS3) ベンチマークは、ここ数年、視覚音声認識(VSR)における激しい研究の焦点となっている。
その結果、過度に使用されるテストセットに過度に適合するリスクが高まり、これは1時間しか続かない。
この問題を緩和するために、LSS3データセット生成プロセスに密接に従えば、WildVSRという新しいVSRテストセットを構築します。
次に、現在のVSRモデルが新しいテストデータに一般化される範囲を評価し、分析する。
我々は、利用可能なVSRモデルを幅広く評価し、対応するLSS3結果と比較して、テストセットの性能が大幅に低下することを示した。
以上の結果から,単語誤り率の増加は,LSS3テストセットよりもわずかに困難で野生の唇配列に一般化できないモデルが原因であることが示唆された。
我々の新しいテストベンチマークは、より堅牢なVSRモデルに向けた将来の研究を可能にするために公開されています。
関連論文リスト
- Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual Inputs [73.74375912785689]
本稿では,音声認識システムのための統合学習戦略を提案する。
3つのタスクの1つのモデルをトレーニングすることで、VSRとAVSRの性能が向上することを示す。
また,非ラベル標本をより効果的に活用するために,強欲な擬似ラベリング手法を導入する。
論文 参考訳(メタデータ) (2024-11-04T16:46:53Z) - SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。
SFR-RAG(SFR-RAG)について述べる。
また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文 参考訳(メタデータ) (2024-09-16T01:08:18Z) - LiteVSR: Efficient Visual Speech Recognition by Learning from Speech
Representations of Unlabeled Data [9.049193356646635]
提案手法は,訓練されたコンフォーマーベースASRモデルから知識を抽出し,標準VSRベンチマーク上での競合性能を実現する。
我々のモデルは、数日以内に1つのコンシューマグレードのGPUでトレーニングでき、日付のハードウェア上でリアルタイムのエンドツーエンドのVSRを実行することができる。
論文 参考訳(メタデータ) (2023-12-15T12:04:24Z) - HypR: A comprehensive study for ASR hypothesis revising with a reference corpus [10.173199736362486]
本研究は,ASR仮説修正データセット(HypR)の提供に焦点を当てた。
HypRはいくつかの一般的なコーパスを含み、各発話に対して50の認識仮説を提供する。
さらに,音声認識結果の改訂における最近の研究の進展を示すために,いくつかの古典的,代表的手法の実装と比較を行った。
論文 参考訳(メタデータ) (2023-09-18T14:55:21Z) - Benchmarking Large Language Models in Retrieval-Augmented Generation [53.504471079548]
大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。
我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。
RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
論文 参考訳(メタデータ) (2023-09-04T08:28:44Z) - SynthVSR: Scaling Up Visual Speech Recognition With Synthetic
Supervision [60.54020550732634]
視覚音声認識(VSR)における合成視覚データの利用の可能性について検討する。
鍵となるアイデアは、入力音声に条件付き唇の動きを生成する音声駆動の唇アニメーションモデルを活用することである。
我々は,最大公的なVSRベンチマークであるLip Reading Sentences 3 (LRS3)に対するアプローチの有効性を評価する。
論文 参考訳(メタデータ) (2023-03-30T07:43:27Z) - Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels [100.43280310123784]
トレーニングセットのサイズを増大させるために,未ラベルデータセットの自動書き起こしの使用について検討した。
近年の文献的傾向であるトレーニングセットのサイズが大きくなると、ノイズのある書き起こしを用いたにもかかわらずWERが減少することが実証された。
提案手法は,RS2 と LRS3 の AV-ASR 上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-25T00:37:34Z) - Reveal to Revise: An Explainable AI Life Cycle for Iterative Bias
Correction of Deep Models [11.879170124003252]
最先端の機械学習モデルは、トレーニングデータに埋め込まれた急激な相関を学習することが多い。
これにより、これらのモデルを高い意思決定のためにデプロイする際のリスクが生じる。
そこで我々はReveal to Revise (R2R)を提案する。
論文 参考訳(メタデータ) (2023-03-22T15:23:09Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。