論文の概要: Designing Practical Models for Isolated Word Visual Speech Recognition
- arxiv url: http://arxiv.org/abs/2508.17894v1
- Date: Mon, 25 Aug 2025 11:04:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.741639
- Title: Designing Practical Models for Isolated Word Visual Speech Recognition
- Title(参考訳): 単語分離音声認識のための実用モデルの設計
- Authors: Iason Ioannis Panagos, Giorgos Sfikas, Christophoros Nikou,
- Abstract要約: 視覚音声認識(VSR)システムは、ビデオデータのみを使用して、入力シーケンスから音声をデコードする。
このようなシステムの実用化には、医療支援や人間と機械の相互作用が含まれる。
画像分類文献からまず効率的なモデルを作成し、その後、時間的畳み込みネットワークのバックボーンに軽量ブロック設計を採用することで、軽量なエンドツーエンドアーキテクチャを開発する。
- 参考スコア(独自算出の注目度): 9.502316537342372
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual speech recognition (VSR) systems decode spoken words from an input sequence using only the video data. Practical applications of such systems include medical assistance as well as human-machine interactions. A VSR system is typically employed in a complementary role in cases where the audio is corrupt or not available. In order to accurately predict the spoken words, these architectures often rely on deep neural networks in order to extract meaningful representations from the input sequence. While deep architectures achieve impressive recognition performance, relying on such models incurs significant computation costs which translates into increased resource demands in terms of hardware requirements and results in limited applicability in real-world scenarios where resources might be constrained. This factor prevents wider adoption and deployment of speech recognition systems in more practical applications. In this work, we aim to alleviate this issue by developing architectures for VSR that have low hardware costs. Following the standard two-network design paradigm, where one network handles visual feature extraction and another one utilizes the extracted features to classify the entire sequence, we develop lightweight end-to-end architectures by first benchmarking efficient models from the image classification literature, and then adopting lightweight block designs in a temporal convolution network backbone. We create several unified models with low resource requirements but strong recognition performance. Experiments on the largest public database for English words demonstrate the effectiveness and practicality of our developed models. Code and trained models will be made publicly available.
- Abstract(参考訳): 視覚音声認識(VSR)システムは、ビデオデータのみを使用して、入力シーケンスから音声をデコードする。
このようなシステムの実用化には、医療支援や人間と機械の相互作用が含まれる。
VSRシステムは通常、オーディオが破損したり、利用できない場合に補完的な役割を果たす。
話し言葉を正確に予測するために、これらのアーキテクチャは入力シーケンスから意味のある表現を抽出するためにディープニューラルネットワークに依存することが多い。
ディープアーキテクチャは印象的な認識性能を実現する一方で、そのようなモデルに依存すると、ハードウェア要件の観点からリソース要求が増大し、リソースが制約されるような現実のシナリオでは、適用性が制限されるという大きな計算コストが発生する。
この要因は、より実用的なアプリケーションにおける音声認識システムの普及と展開を妨げている。
本研究では,ハードウェアコストの低いVSRアーキテクチャを開発することにより,この問題を軽減することを目的とする。
1つのネットワークが視覚的特徴抽出を処理し、もう1つのネットワークが抽出した特徴を利用してシーケンス全体を分類する、標準的な2ネットワーク設計パラダイムに従って、画像分類文献から効率的なモデルをベンチマークし、その後、時間的畳み込みネットワークのバックボーンに軽量ブロック設計を適用することにより、軽量なエンドツーエンドアーキテクチャを開発する。
リソース要求が低いが認識性能が強い統一モデルをいくつか作成する。
英語単語のための最大公用語データベースの実験は、我々の開発したモデルの有効性と実用性を示している。
コードとトレーニングされたモデルは公開されます。
関連論文リスト
- Keep what you need : extracting efficient subnetworks from large audio representation models [0.8798470556253869]
事前学習された表現モデルの層間において学習可能なバイナリマスクを導入する。
下流タスクでエンド・ツー・エンドのモデルをトレーニングするとき、私たちは全体目標に疎結合による損失を加えます。
トレーニングが完了すると、マスクされた計算ユニットがネットワークから削除され、大幅なパフォーマンス向上が示唆される。
論文 参考訳(メタデータ) (2025-02-18T15:04:33Z) - Lightweight Operations for Visual Speech Recognition [5.254384872541785]
我々は資源制約のあるデバイスのための軽量な視覚音声認識アーキテクチャを開発した。
我々は、ビデオシーケンスからの単語認識のために、大規模な公開データセット上でモデルをトレーニングし、評価する。
論文 参考訳(メタデータ) (2025-02-07T11:08:32Z) - SEAL: Speech Embedding Alignment Learning for Speech Large Language Model with Retrieval-Augmented Generation [10.828717295018123]
本稿では,中間テキスト表現の必要性を解消する統合埋め込みフレームワークを提案する。
本モデルでは,従来の2段階法に比べて高い精度でパイプライン遅延を50%削減する。
論文 参考訳(メタデータ) (2025-01-26T15:04:02Z) - Tailored Design of Audio-Visual Speech Recognition Models using Branchformers [0.0]
本稿では,パラメータ効率の高い音声認識システムの設計のための新しいフレームワークを提案する。
より正確に言うと、提案するフレームワークは、まず、音声のみのシステムとビデオのみのシステムを推定し、次に、カスタマイズされたオーディオ視覚統合エンコーダを設計する。
我々のモデルは、英語で約2.5%の競争力のある単語誤り率(WER)を達成し、スペイン語で既存のアプローチを上回ります。
論文 参考訳(メタデータ) (2024-07-09T07:15:56Z) - SOLO: A Single Transformer for Scalable Vision-Language Modeling [74.05173379908703]
我々はvisiOn-Language mOdelingのための単一変換器SOLOを提案する。
SOLOのような統一された単一トランスフォーマーアーキテクチャは、LVLMにおけるこれらのスケーラビリティ上の懸念に効果的に対処する。
本稿では,オープンソースの7B LVLMであるSOLOの開発のための,最初のオープンソーストレーニングレシピを紹介する。
論文 参考訳(メタデータ) (2024-07-08T22:40:15Z) - Conformer LLMs -- Convolution Augmented Large Language Models [2.8935588665357077]
この研究は、大きな言語モデル(LLM)のための2つの一般的なニューラルネットワークブロック、すなわち畳み込み層とトランスフォーマーを構築する。
トランスフォーマーデコーダは、いくつかのモダリティ上の長距離依存関係を効果的にキャプチャし、機械学習におけるモダンな進歩の中核となるバックボーンを形成する。
この研究は、大規模言語モデリングのための音声アプリケーション以外の因果的な設定で統合し、適応できる頑健な音声アーキテクチャを示す。
論文 参考訳(メタデータ) (2023-07-02T03:05:41Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - Speech Command Recognition in Computationally Constrained Environments
with a Quadratic Self-organized Operational Layer [92.37382674655942]
軽量ネットワークの音声コマンド認識能力を向上するネットワーク層を提案する。
この手法はテイラー展開と二次形式の概念を借用し、入力層と隠蔽層の両方における特徴のより良い表現を構築する。
このリッチな表現は、Google音声コマンド(GSC)と合成音声コマンド(SSC)データセットに関する広範な実験で示されているように、認識精度の向上をもたらす。
論文 参考訳(メタデータ) (2020-11-23T14:40:18Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。