論文の概要: Word-level Persian Lipreading Dataset
- arxiv url: http://arxiv.org/abs/2304.04068v1
- Date: Sat, 8 Apr 2023 17:00:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 17:58:12.079054
- Title: Word-level Persian Lipreading Dataset
- Title(参考訳): 単語レベルペルシャ読解データセット
- Authors: Javad Peymanfard, Ali Lashini, Samin Heydarian, Hossein Zeinali,
Nasser Mozayani
- Abstract要約: 本稿では,約1,800人の話者から244,000本のビデオを含む,ペルシャ語レベルのリリーディングのための,新たなWildデータセットを提供する。
そこで我々は,この分野における最先端の手法を評価し,単語レベルの唇読解に新しいアプローチを用いた。
- 参考スコア(独自算出の注目度): 2.7836084563851284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lip-reading has made impressive progress in recent years, driven by advances
in deep learning. Nonetheless, the prerequisite such advances is a suitable
dataset. This paper provides a new in-the-wild dataset for Persian word-level
lipreading containing 244,000 videos from approximately 1,800 speakers. We
evaluated the state-of-the-art method in this field and used a novel approach
for word-level lip-reading. In this method, we used the AV-HuBERT model for
feature extraction and obtained significantly better performance on our
dataset.
- Abstract(参考訳): 近年、深層学習の進歩により、口唇読書は目覚ましい進歩を遂げている。
それでも、そのような進歩は適切なデータセットである。
本稿では,約1,800人の話者から244,000本のビデオを含む,ペルシャ語レベルのリップリードのための新しいインザワイルドデータセットを提供する。
本研究では,この分野での最先端の手法を評価し,単語レベルの唇読解に新しいアプローチを用いた。
本手法では,av-hubertモデルを用いて特徴抽出を行い,より優れた性能を得た。
関連論文リスト
- Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - End-to-End Lip Reading in Romanian with Cross-Lingual Domain Adaptation
and Lateral Inhibition [2.839471733237535]
我々は、Wild LRRoと呼ばれる、表現不足の短いルーマニア語のデータセット上で、いくつかのアーキテクチャと最適化を解析する。
提案手法,すなわち,言語間ドメイン適応とラベルなしビデオを用いて,最先端の検索結果を得る。
また、神経阻害機構にインスパイアされた層を付加する性能も評価した。
論文 参考訳(メタデータ) (2023-10-07T15:36:58Z) - Leveraging Visemes for Better Visual Speech Representation and Lip
Reading [2.7836084563851284]
そこで本研究では,音声学的に類似した唇形状群であるビセムを利用して,より差別的で堅牢な唇読解ビデオ特徴を抽出する手法を提案する。
提案手法は,従来手法と比較して,唇読解単語誤り率(WER)を9.1%削減する。
論文 参考訳(メタデータ) (2023-07-19T17:38:26Z) - A Multi-Purpose Audio-Visual Corpus for Multi-Modal Persian Speech
Recognition: the Arman-AV Dataset [2.594602184695942]
本稿では,ペルシャ語のための多目的音声視覚データセットを提案する。
約220時間の動画と1760人の話者で構成されている。
データセットは自動音声認識、音声視覚音声認識、話者認識に適している。
論文 参考訳(メタデータ) (2023-01-21T05:13:30Z) - Improving Keyphrase Extraction with Data Augmentation and Information
Filtering [67.43025048639333]
キーフレーズ抽出はNLPにおける文書理解に不可欠なタスクの1つである。
本稿では,Behanceプラットフォーム上でストリームされたビデオからキーフレーズを抽出するための新しいコーパスと手法を提案する。
論文 参考訳(メタデータ) (2022-09-11T22:38:02Z) - Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。
本研究では,このアプローチをニューラルLMの文脈で再考する。
論文 参考訳(メタデータ) (2022-03-21T01:16:44Z) - LRWR: Large-Scale Benchmark for Lip Reading in Russian language [0.0]
Lipreadingは、唇とその周辺領域の視覚的変形を分析して、ビデオから音声の内容を特定することを目的としている。
この分野での研究の大きな障害の1つは、様々な言語に対して適切なデータセットがないことである。
235 のクラスと135 の話者を含む LRWR という名のロシア語でリップリーディングを行うための自然分布ベンチマークを導入する。
論文 参考訳(メタデータ) (2021-09-14T13:51:19Z) - Lip-reading with Hierarchical Pyramidal Convolution and Self-Attention [98.52189797347354]
唇読解のための空間特徴抽出にマルチスケール処理を導入する。
セルフアテンションを活用して、シーケンスのすべてのステップで情報をマージします。
提案モデルは86.83%の精度を達成し,現状よりも1.53%の絶対的改善が得られた。
論文 参考訳(メタデータ) (2020-12-28T16:55:51Z) - Learn an Effective Lip Reading Model without Pains [96.21025771586159]
視覚的音声認識としても知られるリップ読み取りは、リップダイナミックスを解析することにより、ビデオから音声の内容を認識することを目的としている。
既存のほとんどの手法は、複雑なニューラルネットワークを構築することで高い性能を得た。
これらの戦略を適切に活用することは、モデルの大部分を変更することなく、常にエキサイティングな改善をもたらす可能性があることに気付きました。
論文 参考訳(メタデータ) (2020-11-15T15:29:19Z) - A Survey on Text Classification: From Shallow to Deep Learning [83.47804123133719]
過去10年は、ディープラーニングが前例のない成功を収めたために、この分野の研究が急増している。
本稿では,1961年から2021年までの最先端のアプローチを見直し,そのギャップを埋める。
特徴抽出と分類に使用されるテキストとモデルに基づいて,テキスト分類のための分類を作成する。
論文 参考訳(メタデータ) (2020-08-02T00:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。