論文の概要: SparseVSR: Lightweight and Noise Robust Visual Speech Recognition
- arxiv url: http://arxiv.org/abs/2307.04552v1
- Date: Mon, 10 Jul 2023 13:34:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 13:04:08.649932
- Title: SparseVSR: Lightweight and Noise Robust Visual Speech Recognition
- Title(参考訳): SparseVSR:軽量・ノイズロバストな視覚音声認識
- Authors: Adriana Fernandez-Lopez, Honglie Chen, Pingchuan Ma, Alexandros
Haliassos, Stavros Petridis and Maja Pantic
- Abstract要約: 我々は,高密度モデルよりも高い性能を実現する軽量モデルを生成する。
その結果,疎結合ネットワークは高密度ネットワークよりもノイズに耐性があることが確認された。
- 参考スコア(独自算出の注目度): 100.43280310123784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in deep neural networks have achieved unprecedented success
in visual speech recognition. However, there remains substantial disparity
between current methods and their deployment in resource-constrained devices.
In this work, we explore different magnitude-based pruning techniques to
generate a lightweight model that achieves higher performance than its dense
model equivalent, especially under the presence of visual noise. Our sparse
models achieve state-of-the-art results at 10% sparsity on the LRS3 dataset and
outperform the dense equivalent up to 70% sparsity. We evaluate our 50% sparse
model on 7 different visual noise types and achieve an overall absolute
improvement of more than 2% WER compared to the dense equivalent. Our results
confirm that sparse networks are more resistant to noise than dense networks.
- Abstract(参考訳): 近年のディープニューラルネットワークの進歩は、視覚音声認識において前例のない成功を収めている。
しかし、現在の方法とリソース制約のあるデバイスへの展開には大きな違いがある。
本研究では,特に視覚ノイズ下での高密度モデルよりも高い性能を実現する軽量モデルを生成するために,異なる等級ベースプルーニング手法を提案する。
我々のスパースモデルは、LSS3データセット上で10%の間隔で最先端の結果を達成し、密度の高い等価度を最大70%の間隔で上回ります。
我々は,7種類の視覚ノイズに対して50%のスパースモデルを評価し,濃密な等価性と比較して2%以上のWERの絶対的改善を実現した。
その結果,分散ネットワークは高密度ネットワークよりもノイズに耐性があることが確認された。
関連論文リスト
- Robust Network Learning via Inverse Scale Variational Sparsification [55.64935887249435]
時間連続な逆スケール空間の定式化において、逆スケールの変動スペーサー化フレームワークを導入する。
周波数ベースの手法とは異なり、我々の手法は小さな特徴を滑らかにすることでノイズを除去するだけでなく、ノイズを除去する。
各種騒音に対する頑健性の向上によるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-09-27T03:17:35Z) - A Real-Time Voice Activity Detection Based On Lightweight Neural [4.589472292598182]
音声活動検出(Voice Activity Detection, VAD)は、音声ストリーム中の音声を検出するタスクである。
最近のニューラルネットワークベースのVADでは、パフォーマンスの低下がある程度軽減されている。
我々は,カジュアルかつ深さ分離可能な1次元畳み込みとGRUを利用するMagicNetという,軽量でリアルタイムなニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2024-05-27T03:31:16Z) - Improved Generalization of Weight Space Networks via Augmentations [53.87011906358727]
深度重み空間(DWS)における学習は新たな研究方向であり、2次元および3次元神経場(INRs, NeRFs)への応用
我々は、この過度な適合の理由を実証的に分析し、主要な理由は、DWSデータセットの多様性の欠如であることがわかった。
そこで本研究では,重み空間におけるデータ拡張戦略について検討し,重み空間に適応したMixUp法を提案する。
論文 参考訳(メタデータ) (2024-02-06T15:34:44Z) - Stuttering Detection Using Speaker Representations and Self-supervised
Contextual Embeddings [7.42741711946564]
本稿では,大規模音声データセットを訓練した事前学習したディープラーニングモデルから抽出した音声埋め込みの適用について紹介する。
限られたSEP-28kデータセットでのみトレーニングされた標準SDシステムと比較して、ベースラインを上回る平均リコール(UAR)で12.08%、28.71%、37.9%の相対的な改善が得られた。
論文 参考訳(メタデータ) (2023-06-01T14:00:47Z) - WeightMom: Learning Sparse Networks using Iterative Momentum-based
pruning [0.0]
本稿では,前回の繰り返しの運動量に基づいて徐々に重みを刈り取る,重みに基づくプルーニング手法を提案する。
我々は,CIFAR-10やCIFAR-100といった画像分類データセットを用いて,AlexNet,VGG16,ResNet50などのネットワークに対するアプローチを評価する。
論文 参考訳(メタデータ) (2022-08-11T07:13:59Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - SoundCLR: Contrastive Learning of Representations For Improved
Environmental Sound Classification [0.6767885381740952]
SoundCLRは、最先端の性能を持つ効果的な環境音分類のための教師付きコントラスト学習手法である。
利用可能な環境音のデータセットのサイズが比較的小さいため、転送学習と強力なデータ拡張パイプラインを提案し、活用する。
実験の結果,log-melスペクトルを用いたマスキングによる拡張技術により,認識性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2021-03-02T18:42:45Z) - Coresets for Robust Training of Neural Networks against Noisy Labels [78.03027938765746]
本稿では,雑音ラベルで訓練したディープネットワークの堅牢なトレーニングのための理論的保証を強く備えた新しい手法を提案する。
我々は、ほぼ低ランクのヤコビ行列を提供するクリーンなデータポイントの重み付き部分集合(コアセット)を選択する。
我々の実験は、我々の理論を裏付け、我々のサブセットで訓練されたディープネットワークが、最先端技術よりもはるかに優れたパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2020-11-15T04:58:11Z) - HALO: Learning to Prune Neural Networks with Shrinkage [5.283963846188862]
ディープニューラルネットワークは、構造化されていないデータから豊富な特徴セットを抽出することにより、さまざまなタスクで最先端のパフォーマンスを実現する。
提案手法は,(1)ネットワークプルーニング,(2)スパシティ誘導ペナルティによるトレーニング,(3)ネットワークの重みと連動してバイナリマスクをトレーニングすることである。
トレーニング可能なパラメータを用いて、与えられたネットワークの重みを適応的に分散化することを学ぶ階層適応ラッソ(Hierarchical Adaptive Lasso)という新しいペナルティを提案する。
論文 参考訳(メタデータ) (2020-08-24T04:08:48Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。