論文の概要: LRWR: Large-Scale Benchmark for Lip Reading in Russian language
- arxiv url: http://arxiv.org/abs/2109.06692v1
- Date: Tue, 14 Sep 2021 13:51:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-15 22:21:59.933774
- Title: LRWR: Large-Scale Benchmark for Lip Reading in Russian language
- Title(参考訳): LRWR:ロシア語による唇読解のための大規模ベンチマーク
- Authors: Evgeniy Egorov, Vasily Kostyumov, Mikhail Konyk, Sergey Kolesnikov
- Abstract要約: Lipreadingは、唇とその周辺領域の視覚的変形を分析して、ビデオから音声の内容を特定することを目的としている。
この分野での研究の大きな障害の1つは、様々な言語に対して適切なデータセットがないことである。
235 のクラスと135 の話者を含む LRWR という名のロシア語でリップリーディングを行うための自然分布ベンチマークを導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lipreading, also known as visual speech recognition, aims to identify the
speech content from videos by analyzing the visual deformations of lips and
nearby areas. One of the significant obstacles for research in this field is
the lack of proper datasets for a wide variety of languages: so far, these
methods have been focused only on English or Chinese. In this paper, we
introduce a naturally distributed large-scale benchmark for lipreading in
Russian language, named LRWR, which contains 235 classes and 135 speakers. We
provide a detailed description of the dataset collection pipeline and dataset
statistics. We also present a comprehensive comparison of the current popular
lipreading methods on LRWR and conduct a detailed analysis of their
performance. The results demonstrate the differences between the benchmarked
languages and provide several promising directions for lipreading models
finetuning. Thanks to our findings, we also achieved new state-of-the-art
results on the LRW benchmark.
- Abstract(参考訳): 視覚的音声認識としても知られるLipreadingは、唇とその周辺領域の視覚的変形を分析して、ビデオから音声の内容を特定することを目的としている。
この分野での研究の大きな障害の1つは、様々な言語のための適切なデータセットが欠如していることである。
本稿では,235のクラスと135の話者を含むロシア語のLipreadingを自然に分散した大規模ベンチマークであるLRWRを提案する。
データセット収集パイプラインとデータセット統計の詳細な説明を提供する。
また,lrwrにおける現在一般的なリップリード手法の包括的比較を行い,その性能の詳細な解析を行った。
その結果,ベンチマーク言語間の差異が示され,リップリーディングモデルの微調整に期待できる方向がいくつか提示された。
以上の結果から,LRWベンチマークによる最新の結果も得られた。
関連論文リスト
- A Comparative Study of Translation Bias and Accuracy in Multilingual Large Language Models for Cross-Language Claim Verification [1.566834021297545]
本研究は,言語間クレーム検証における翻訳バイアスと大規模言語モデルの有効性を体系的に評価する。
本稿では,事前翻訳と自己翻訳の2つの異なる翻訳手法について検討する。
その結果,低リソース言語では表現不足による直接推論の精度が著しく低いことが明らかとなった。
論文 参考訳(メタデータ) (2024-10-14T09:02:42Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - End-to-End Lip Reading in Romanian with Cross-Lingual Domain Adaptation
and Lateral Inhibition [2.839471733237535]
我々は、Wild LRRoと呼ばれる、表現不足の短いルーマニア語のデータセット上で、いくつかのアーキテクチャと最適化を解析する。
提案手法,すなわち,言語間ドメイン適応とラベルなしビデオを用いて,最先端の検索結果を得る。
また、神経阻害機構にインスパイアされた層を付加する性能も評価した。
論文 参考訳(メタデータ) (2023-10-07T15:36:58Z) - Leveraging Visemes for Better Visual Speech Representation and Lip
Reading [2.7836084563851284]
そこで本研究では,音声学的に類似した唇形状群であるビセムを利用して,より差別的で堅牢な唇読解ビデオ特徴を抽出する手法を提案する。
提案手法は,従来手法と比較して,唇読解単語誤り率(WER)を9.1%削減する。
論文 参考訳(メタデータ) (2023-07-19T17:38:26Z) - FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。
このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文 参考訳(メタデータ) (2022-10-01T05:02:04Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - A Multimodal German Dataset for Automatic Lip Reading Systems and
Transfer Learning [18.862801476204886]
我々は、ヘッセン議会の演説者の顔に関する25万の公開ビデオからなるデータセットGLips(ドイツ語のリップス)を提示する。
このフォーマットは英語のLRW(Lip Reading in the Wild)データセットと似ており、各ビデオは1ワードの興味を1.16秒の文脈で符号化している。
深層ニューラルネットワークを訓練することにより, 唇読解に言語に依存しない特徴があるかどうかを調べ, 唇読解モデルを改善するために, 異なる言語のデータセットを使うことができる。
論文 参考訳(メタデータ) (2022-02-27T17:37:35Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Sub-word Level Lip Reading With Visual Attention [88.89348882036512]
我々は、リップリーディングで遭遇するユニークな課題に注目し、調整されたソリューションを提案する。
公開データセット上でのトレーニングにおいて,挑戦的なLSS2とLSS3ベンチマークの最先端結果を得る。
我々の最良のモデルはLRS2データセットで22.6%のワードエラー率を達成する。
論文 参考訳(メタデータ) (2021-10-14T17:59:57Z) - Mr. TyDi: A Multi-lingual Benchmark for Dense Retrieval [51.004601358498135]
Mr. TyDiは、11の類型的多様言語における単言語検索のためのベンチマークデータセットである。
このリソースの目的は、非英語言語における高密度検索技術の研究を促進することである。
論文 参考訳(メタデータ) (2021-08-19T16:53:43Z) - Cross-language Sentence Selection via Data Augmentation and Rationale
Training [22.106577427237635]
雑音のある並列文データに対するデータ拡張と負のサンプリング技術を用いて、言語間埋め込みに基づくクエリ関連モデルの学習を行う。
その結果、同じ並列データでトレーニングされた複数の最先端機械翻訳+モノリンガル検索システムよりも、このアプローチが優れているか、あるいは優れていることが示された。
論文 参考訳(メタデータ) (2021-06-04T07:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。