論文の概要: Cross-Attention Fusion of Visual and Geometric Features for Large
Vocabulary Arabic Lipreading
- arxiv url: http://arxiv.org/abs/2402.11520v1
- Date: Sun, 18 Feb 2024 09:22:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 20:48:24.460464
- Title: Cross-Attention Fusion of Visual and Geometric Features for Large
Vocabulary Arabic Lipreading
- Title(参考訳): 大語彙アラビアリブディングのための視覚的特徴と幾何学的特徴の相互注意融合
- Authors: Samar Daou, Ahmed Rekik, Achraf Ben-Hamadou, Abdelaziz Kallel
- Abstract要約: リップリーディングは、唇とその周辺領域の動きを分析することによって、音声の認識に視覚データを使用する。
近年の深層学習に基づく研究は,口域から抽出した視覚的特徴を唇輪郭の目印点と統合することを目的としている。
本稿では,ビデオ中の音声単語を予測するために,大語彙アラビア語彙に対するクロスアテンション融合に基づくアプローチを提案する。
- 参考スコア(独自算出の注目度): 3.502468086816445
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Lipreading involves using visual data to recognize spoken words by analyzing
the movements of the lips and surrounding area. It is a hot research topic with
many potential applications, such as human-machine interaction and enhancing
audio speech recognition. Recent deep-learning based works aim to integrate
visual features extracted from the mouth region with landmark points on the lip
contours. However, employing a simple combination method such as concatenation
may not be the most effective approach to get the optimal feature vector. To
address this challenge, firstly, we propose a cross-attention fusion-based
approach for large lexicon Arabic vocabulary to predict spoken words in videos.
Our method leverages the power of cross-attention networks to efficiently
integrate visual and geometric features computed on the mouth region. Secondly,
we introduce the first large-scale Lip Reading in the Wild for Arabic (LRW-AR)
dataset containing 20,000 videos for 100-word classes, uttered by 36 speakers.
The experimental results obtained on LRW-AR and ArabicVisual databases showed
the effectiveness and robustness of the proposed approach in recognizing Arabic
words. Our work provides insights into the feasibility and effectiveness of
applying lipreading techniques to the Arabic language, opening doors for
further research in this field. Link to the project page:
https://crns-smartvision.github.io/lrwar
- Abstract(参考訳): リップリーディングは、唇とその周辺領域の動きを分析することによって、音声の認識に視覚データを使用する。
これは、人間と機械の相互作用や音声認識の強化など、多くの潜在的な応用に関する熱い研究トピックである。
近年の深層学習に基づく研究は,口域から抽出した視覚的特徴を唇輪郭の目印点と統合することを目的としている。
しかし、結合のような単純な組み合わせ法は最適な特徴ベクトルを得るための最も効果的なアプローチではないかもしれない。
まず,この課題に対処するために,大語彙レキシコン語彙によるビデオ中の発話単語の予測のためのクロス・アテンション・フュージョンに基づくアプローチを提案する。
本手法は,視覚的特徴と幾何学的特徴を効率的に統合するために,クロスアテンションネットワークのパワーを利用する。
第二に, アラビア語 (lrw-ar) 用に, 36名の話者が発話する100語クラスの2万本のビデオを含む大規模リップリーディングを初めて紹介する。
lrw-ar と arabic visual database で得られた実験結果は,提案手法の有効性と頑健性を示した。
私たちの研究は、アラビア語にリップリード技術を適用する可能性と有効性について洞察を与え、この分野におけるさらなる研究の扉を開く。
プロジェクトページへのリンク: https://crns-smartvision.github.io/lrwar
関連論文リスト
- Align before Attend: Aligning Visual and Textual Features for Multimodal
Hateful Content Detection [4.997673761305336]
本稿では,マルチモーダルヘイトフルコンテンツ検出のためのコンテキスト認識型アテンションフレームワークを提案する。
Viz.MUTE(Bengali code-mixed)とMultiOFF(英語)の2つのベンチマークヘイトフルミームデータセットに対する提案手法の評価を行った。
論文 参考訳(メタデータ) (2024-02-15T06:34:15Z) - Efficient Training for Multilingual Visual Speech Recognition: Pre-training with Discretized Visual Speech Representation [55.15299351110525]
本稿では,1つの訓練されたモデルで異なる言語を認識可能な文レベル多言語視覚音声認識(VSR)について検討する。
視覚音声単位を用いた新しい学習手法を提案する。
我々は、従来の言語固有のVSRモデルに匹敵する性能を達成し、最先端の多言語VSRのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2024-01-18T08:46:02Z) - Analysis of Visual Features for Continuous Lipreading in Spanish [0.0]
リップリーディングは、音声が利用できないときに音声を解釈することを目的とする複雑なタスクである。
そこで本稿では, 自然スペイン語における唇運動の特徴をとらえる上で, どちらが最適かを特定することを目的とした, 異なる音声視覚特徴の分析手法を提案する。
論文 参考訳(メタデータ) (2023-11-21T09:28:00Z) - Leveraging Visemes for Better Visual Speech Representation and Lip
Reading [2.7836084563851284]
そこで本研究では,音声学的に類似した唇形状群であるビセムを利用して,より差別的で堅牢な唇読解ビデオ特徴を抽出する手法を提案する。
提案手法は,従来手法と比較して,唇読解単語誤り率(WER)を9.1%削減する。
論文 参考訳(メタデータ) (2023-07-19T17:38:26Z) - MixSpeech: Cross-Modality Self-Learning with Audio-Visual Stream Mixup
for Visual Speech Translation and Recognition [51.412413996510814]
視覚音声の訓練を正規化するために音声音声を利用する多目的自己学習フレームワークであるMixSpeechを提案する。
MixSpeechは雑音の多い環境での音声翻訳を強化し、AVMuST-TED上でのBLEUスコアを+1.4から+4.2に改善した。
論文 参考訳(メタデータ) (2023-03-09T14:58:29Z) - A Multi-Purpose Audio-Visual Corpus for Multi-Modal Persian Speech
Recognition: the Arman-AV Dataset [2.594602184695942]
本稿では,ペルシャ語のための多目的音声視覚データセットを提案する。
約220時間の動画と1760人の話者で構成されている。
データセットは自動音声認識、音声視覚音声認識、話者認識に適している。
論文 参考訳(メタデータ) (2023-01-21T05:13:30Z) - Bench-Marking And Improving Arabic Automatic Image Captioning Through
The Use Of Multi-Task Learning Paradigm [0.0]
本稿ではアラビア画像キャプションの性能を高める手法と手法について検討する。
マルチタスク学習と事前学習語埋め込みの使用により、画像キャプションの品質が著しく向上した。
しかし、提示された結果から、アラビア語の字幕化は、英語と比較してまだ遅れていることがわかる。
論文 参考訳(メタデータ) (2022-02-11T06:29:25Z) - Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。
本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文 参考訳(メタデータ) (2021-12-02T13:06:53Z) - Sub-word Level Lip Reading With Visual Attention [88.89348882036512]
我々は、リップリーディングで遭遇するユニークな課題に注目し、調整されたソリューションを提案する。
公開データセット上でのトレーニングにおいて,挑戦的なLSS2とLSS3ベンチマークの最先端結果を得る。
我々の最良のモデルはLRS2データセットで22.6%のワードエラー率を達成する。
論文 参考訳(メタデータ) (2021-10-14T17:59:57Z) - LiRA: Learning Visual Speech Representations from Audio through
Self-supervision [53.18768477520411]
セルフスーパービジョン(LiRA)による音声からの視覚的表現の学習を提案する。
具体的には、ResNet+Conformerモデルをトレーニングし、未学習の視覚音声から音響的特徴を予測する。
提案手法は,WildデータセットのLip Readingにおいて,他の自己教師的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-16T23:20:06Z) - Visual Grounding in Video for Unsupervised Word Translation [91.47607488740647]
我々は、言語間の教師なし単語マッピングを改善するために、視覚的接地を用いる。
ネイティブ言語でナレーションされた無人の教育ビデオから埋め込みを学習する。
これらの手法を英語からフランス語、韓国語、日本語への翻訳に適用する。
論文 参考訳(メタデータ) (2020-03-11T02:03:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。