Fugu-MT 論文翻訳(概要): Do VSR Models Generalize Beyond LRS3?

論文の概要: Do VSR Models Generalize Beyond LRS3?

arxiv url: http://arxiv.org/abs/2311.14063v1
Date: Thu, 23 Nov 2023 15:42:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-27 23:18:22.158049
Title: Do VSR Models Generalize Beyond LRS3?
Title（参考訳）: VSRモデルはRS3を超えて一般化されるか?
Authors: Yasser Abdelaziz Dahou Djilali, Sanath Narayan, Eustache Le Bihan, Haithem Boussaid, Ebtessam Almazrouei, Merouane Debbah
Abstract要約: 我々はWildVSRという新しい視覚音声認識テストセットを構築した。我々は、現在のVSRモデルが新しいテストデータに一般化される範囲を評価し、分析する。以上の結果から,単語誤り率の増加は,LSS3テストセットよりわずかに困難で野生の唇配列に一般化できないモデルが原因であることが示唆された。
参考スコア（独自算出の注目度）: 6.445678506595094
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The Lip Reading Sentences-3 (LRS3) benchmark has primarily been the focus of intense research in visual speech recognition (VSR) during the last few years. As a result, there is an increased risk of overfitting to its excessively used test set, which is only one hour duration. To alleviate this issue, we build a new VSR test set named WildVSR, by closely following the LRS3 dataset creation processes. We then evaluate and analyse the extent to which the current VSR models generalize to the new test data. We evaluate a broad range of publicly available VSR models and find significant drops in performance on our test set, compared to their corresponding LRS3 results. Our results suggest that the increase in word error rates is caused by the models inability to generalize to slightly harder and in the wild lip sequences than those found in the LRS3 test set. Our new test benchmark is made public in order to enable future research towards more robust VSR models.
Abstract（参考訳）: Lip Reading Sentences-3 (LRS3) ベンチマークは、ここ数年、視覚音声認識(VSR)における激しい研究の焦点となっている。その結果、過度に使用されるテストセットに過度に適合するリスクが高まり、これは1時間しか続かない。この問題を緩和するために、LSS3データセット生成プロセスに密接に従えば、WildVSRという新しいVSRテストセットを構築します。次に、現在のVSRモデルが新しいテストデータに一般化される範囲を評価し、分析する。我々は、利用可能なVSRモデルを幅広く評価し、対応するLSS3結果と比較して、テストセットの性能が大幅に低下することを示した。以上の結果から,単語誤り率の増加は,LSS3テストセットよりもわずかに困難で野生の唇配列に一般化できないモデルが原因であることが示唆された。我々の新しいテストベンチマークは、より堅牢なVSRモデルに向けた将来の研究を可能にするために公開されています。

関連論文リスト

R3-RAG: Learning Step-by-Step Reasoning and Retrieval for LLMs via Reinforcement Learning [62.742230250513025]
Retrieval-Augmented Generation (RAG)は、外部知識をLLM(Large Language Models)と統合し、事実の正しさと幻覚を高める。我々は、 $textbfR$einforcement Learning を用いて LLM に $textbfR$eason と $textbfR$etrieve を段階的に学習させる $textbfR3-RAG$ を提案する。
論文参考訳（メタデータ） (2025-05-26T12:25:37Z)
Expand VSR Benchmark for VLLM to Expertize in Spatial Rules [11.320245739677826]
視覚的空間推論は人間の認知の基本的な部分であり、クロスインスタンスの微妙な認識を必要とする。視覚的位置推論に特化した視覚大言語モデル(VLLM)には、十分な量と品質評価と最適化データセットが不足している。現状のVLLMでは,言語命令に対する過敏性や視覚的位置情報に対する過敏性の矛盾がみられた。我々の知る限り、拡散モデルを用いて空間的に位置決めされた画像データを協調的に拡張し、元のビジュアルエンコーディングを統合した。
論文参考訳（メタデータ） (2024-12-24T07:13:17Z)
Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual Inputs [73.74375912785689]
本稿では,音声認識システムのための統合学習戦略を提案する。 3つのタスクの1つのモデルをトレーニングすることで、VSRとAVSRの性能が向上することを示す。また,非ラベル標本をより効果的に活用するために,強欲な擬似ラベリング手法を導入する。
論文参考訳（メタデータ） (2024-11-04T16:46:53Z)
SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。 SFR-RAG(SFR-RAG)について述べる。また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文参考訳（メタデータ） (2024-09-16T01:08:18Z)
LiteVSR: Efficient Visual Speech Recognition by Learning from Speech Representations of Unlabeled Data [9.049193356646635]
提案手法は,訓練されたコンフォーマーベースASRモデルから知識を抽出し,標準VSRベンチマーク上での競合性能を実現する。我々のモデルは、数日以内に1つのコンシューマグレードのGPUでトレーニングでき、日付のハードウェア上でリアルタイムのエンドツーエンドのVSRを実行することができる。
論文参考訳（メタデータ） (2023-12-15T12:04:24Z)
REST: Enhancing Group Robustness in DNNs through Reweighted Sparse Training [49.581884130880944]
ディープニューラルネットワーク(DNN)は様々な領域で有効であることが証明されている。しかし、彼らは推論中に一部の少数派でうまく行動するのに苦労することが多い。
論文参考訳（メタデータ） (2023-12-05T16:27:54Z)
HypR: A comprehensive study for ASR hypothesis revising with a reference corpus [10.173199736362486]
本研究は,ASR仮説修正データセット(HypR)の提供に焦点を当てた。 HypRはいくつかの一般的なコーパスを含み、各発話に対して50の認識仮説を提供する。さらに,音声認識結果の改訂における最近の研究の進展を示すために,いくつかの古典的,代表的手法の実装と比較を行った。
論文参考訳（メタデータ） (2023-09-18T14:55:21Z)
Benchmarking Large Language Models in Retrieval-Augmented Generation [53.504471079548]
大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。 RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
論文参考訳（メタデータ） (2023-09-04T08:28:44Z)
SynthVSR: Scaling Up Visual Speech Recognition With Synthetic Supervision [60.54020550732634]
視覚音声認識(VSR)における合成視覚データの利用の可能性について検討する。鍵となるアイデアは、入力音声に条件付き唇の動きを生成する音声駆動の唇アニメーションモデルを活用することである。我々は,最大公的なVSRベンチマークであるLip Reading Sentences 3 (LRS3)に対するアプローチの有効性を評価する。
論文参考訳（メタデータ） (2023-03-30T07:43:27Z)
Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels [100.43280310123784]
トレーニングセットのサイズを増大させるために,未ラベルデータセットの自動書き起こしの使用について検討した。近年の文献的傾向であるトレーニングセットのサイズが大きくなると、ノイズのある書き起こしを用いたにもかかわらずWERが減少することが実証された。提案手法は,RS2 と LRS3 の AV-ASR 上での最先端性能を実現する。
論文参考訳（メタデータ） (2023-03-25T00:37:34Z)
Reveal to Revise: An Explainable AI Life Cycle for Iterative Bias Correction of Deep Models [11.879170124003252]
最先端の機械学習モデルは、トレーニングデータに埋め込まれた急激な相関を学習することが多い。これにより、これらのモデルを高い意思決定のためにデプロイする際のリスクが生じる。そこで我々はReveal to Revise (R2R)を提案する。
論文参考訳（メタデータ） (2023-03-22T15:23:09Z)
TACRED Revisited: A Thorough Evaluation of the TACRED Relation Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つであるパフォーマンスの天井に到達したのか、改善の余地はあるのか? ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文参考訳（メタデータ） (2020-04-30T15:07:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。