論文の概要: VALLR: Visual ASR Language Model for Lip Reading
- arxiv url: http://arxiv.org/abs/2503.21408v1
- Date: Thu, 27 Mar 2025 11:52:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:52:33.284551
- Title: VALLR: Visual ASR Language Model for Lip Reading
- Title(参考訳): VALLR: 唇読解のためのビジュアルASR言語モデル
- Authors: Marshall Thomas, Edward Fish, Richard Bowden,
- Abstract要約: リップレディング(Lip Reading)または視覚自動音声認識(Visual Automatic Speech Recognition)は、視覚的手がかりからのみ音声言語の解釈を必要とする複雑なタスクである。
視覚自動音声認識(V-ASR)のための新しい2段階音素中心のフレームワークを提案する。
まず,CTCヘッドを用いたビデオ変換器を用いて,視覚入力から音素のコンパクトな列を予測する。
この音素出力は、コヒーレントな単語と文を再構成する微調整された大言語モデル(LLM)への入力として機能する。
- 参考スコア(独自算出の注目度): 28.561566996686484
- License:
- Abstract: Lip Reading, or Visual Automatic Speech Recognition (V-ASR), is a complex task requiring the interpretation of spoken language exclusively from visual cues, primarily lip movements and facial expressions. This task is especially challenging due to the absence of auditory information and the inherent ambiguity when visually distinguishing phonemes that have overlapping visemes where different phonemes appear identical on the lips. Current methods typically attempt to predict words or characters directly from these visual cues, but this approach frequently encounters high error rates due to coarticulation effects and viseme ambiguity. We propose a novel two-stage, phoneme-centric framework for Visual Automatic Speech Recognition (V-ASR) that addresses these longstanding challenges. First, our model predicts a compact sequence of phonemes from visual inputs using a Video Transformer with a CTC head, thereby reducing the task complexity and achieving robust speaker invariance. This phoneme output then serves as the input to a fine-tuned Large Language Model (LLM), which reconstructs coherent words and sentences by leveraging broader linguistic context. Unlike existing methods that either predict words directly-often faltering on visually similar phonemes-or rely on large-scale multimodal pre-training, our approach explicitly encodes intermediate linguistic structure while remaining highly data efficient. We demonstrate state-of-the-art performance on two challenging datasets, LRS2 and LRS3, where our method achieves significant reductions in Word Error Rate (WER) achieving a SOTA WER of 18.7 on LRS3 despite using 99.4% less labelled data than the next best approach.
- Abstract(参考訳): リップレディング(Lip Reading、V-ASR)は、主に唇の動きや表情からのみ音声言語を解釈する必要がある複雑なタスクである。
この課題は、唇に異なる音素が同一に見える重なり合う音素を持つ音素を視覚的に区別する際に、聴覚情報の欠如と固有の曖昧さにより特に困難である。
現在の手法は通常、これらの視覚的手がかりから直接単語や文字を予測しようとするが、この手法は、粗い効果と鮮明な曖昧さのために、しばしば高いエラー率に遭遇する。
本稿では、これらの長年にわたる課題に対処する、視覚自動音声認識(V-ASR)のための新しい2段階音素中心のフレームワークを提案する。
まず,CTCヘッド付きビデオトランスフォーマを用いた視覚入力から音素のコンパクトなシーケンスを予測し,タスクの複雑さを低減し,頑健な話者不変性を実現する。
この音素出力は、より広い言語コンテキストを活用することで、一貫性のある単語と文を再構成する、微調整された大言語モデル(LLM)への入力として機能する。
視覚的に類似した音素を直接予測する既存の手法や大規模マルチモーダル事前学習に依存している既存の手法とは異なり、本手法は高いデータ効率を維持しながら、中間言語構造を明示的に符号化する。
LRS3における単語誤り率(WER)は, 99.4%のラベル付きデータを使用しながら, LRS3上で18.7のSOTA WERを達成する。
関連論文リスト
- Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。
LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。
MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文 参考訳(メタデータ) (2024-11-21T16:33:30Z) - Lip2Vec: Efficient and Robust Visual Speech Recognition via
Latent-to-Latent Visual to Audio Representation Mapping [4.271091833712731]
従来のモデルから学習するシンプルなアプローチであるLip2Vecを提案する。
提案手法は LRS3 データセット上で26 WER を達成する完全教師付き学習法と比較した。
我々は、VSRをASRタスクとして再プログラムすることで、両者のパフォーマンスギャップを狭め、より柔軟な唇読解法を構築することができると考えている。
論文 参考訳(メタデータ) (2023-08-11T12:59:02Z) - What Can an Accent Identifier Learn? Probing Phonetic and Prosodic
Information in a Wav2vec2-based Accent Identification Model [30.88357561791563]
本研究は,自己監督学習モデルに符号化された音素・韻律情報の変化の理解と定量化に焦点を当てた。
その結果、AIDファインチューニングタスクは上位2層を操り、よりリッチな音素と韻律表現を学ぶことができた。
論文 参考訳(メタデータ) (2023-06-10T21:20:47Z) - Linguistic More: Taking a Further Step toward Efficient and Accurate
Scene Text Recognition [92.6211155264297]
Scene Text Recognition (STR) タスクの単純さと効率性から,視覚モデルへの注目が高まっている。
最近の視覚モデルでは,(1)純粋な視覚に基づく問合せによって注意のドリフトが発生し,認識不良が生じ,言語的不感なドリフト(LID)問題として要約される。
我々は,正確なテキスト認識のための視覚モデルの言語的能力を検討するために,$textbfL$inguistic $textbfP$erception $textbfV$ision model (LPV)を提案する。
論文 参考訳(メタデータ) (2023-05-09T02:52:47Z) - Jointly Learning Visual and Auditory Speech Representations from Raw
Data [108.68531445641769]
RAVEnは視覚と聴覚の表現を協調的に学習する自己教師型マルチモーダルアプローチである。
我々の設計は、ビデオとオーディオの固有の違いによって駆動される非対称なw.r.t.である。
RAVEnは視覚音声認識における全自己指導手法を超越している。
論文 参考訳(メタデータ) (2022-12-12T21:04:06Z) - Speech-text based multi-modal training with bidirectional attention for
improved speech recognition [26.47071418582507]
ASRエンコーダ(ボット層)とテキストエンコーダ(テキストエンコーダ)をマルチモーダル学習法で共同学習するために,新しい双方向アテンション機構(BiAM)を提案する。
BiAMは特徴サンプリングレートの交換を促進することを目的としており、別の空間で測定すべきものに対する変換された特徴の品質を実現する。
Librispeech corpusの実験結果から、ペアデータ学習のみで最大6.15%のワードエラー率削減(WERR)を達成でき、また、より不適切なテキストデータを使用すると9.23%のWERRを実現することができる。
論文 参考訳(メタデータ) (2022-11-01T08:25:11Z) - VCSE: Time-Domain Visual-Contextual Speaker Extraction Network [54.67547526785552]
本稿では,VCSEという2段階の時間領域視覚コンテキスト話者抽出ネットワークを提案する。
第1段階では、視覚的手がかりで対象音声を事前抽出し、基礎となる音声系列を推定する。
第2段階では、事前抽出されたターゲット音声を自己学習した文脈的手がかりで洗練する。
論文 参考訳(メタデータ) (2022-10-09T12:29:38Z) - Sub-word Level Lip Reading With Visual Attention [88.89348882036512]
我々は、リップリーディングで遭遇するユニークな課題に注目し、調整されたソリューションを提案する。
公開データセット上でのトレーニングにおいて,挑戦的なLSS2とLSS3ベンチマークの最先端結果を得る。
我々の最良のモデルはLRS2データセットで22.6%のワードエラー率を達成する。
論文 参考訳(メタデータ) (2021-10-14T17:59:57Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。