論文の概要: Training Strategies for Improved Lip-reading
- arxiv url: http://arxiv.org/abs/2209.01383v1
- Date: Sat, 3 Sep 2022 09:38:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 12:56:58.230900
- Title: Training Strategies for Improved Lip-reading
- Title(参考訳): リップリーディング改善のためのトレーニング戦略
- Authors: Pingchuan Ma, Yujiang Wang, Stavros Petridis, Jie Shen, Maja Pantic
- Abstract要約: 本研究では,最先端データ拡張手法,時間モデル,その他のトレーニング戦略の性能について検討する。
すべての手法を組み合わせると、分類精度は93.4%となり、現在の最先端技術よりも4.6%向上した。
各種学習手法の誤り解析により, 難解な単語の分類精度を高めることにより, 性能が向上することが明らかとなった。
- 参考スコア(独自算出の注目度): 61.661446956793604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Several training strategies and temporal models have been recently proposed
for isolated word lip-reading in a series of independent works. However, the
potential of combining the best strategies and investigating the impact of each
of them has not been explored. In this paper, we systematically investigate the
performance of state-of-the-art data augmentation approaches, temporal models
and other training strategies, like self-distillation and using word boundary
indicators. Our results show that Time Masking (TM) is the most important
augmentation followed by mixup and Densely-Connected Temporal Convolutional
Networks (DC-TCN) are the best temporal model for lip-reading of isolated
words. Using self-distillation and word boundary indicators is also beneficial
but to a lesser extent. A combination of all the above methods results in a
classification accuracy of 93.4%, which is an absolute improvement of 4.6% over
the current state-of-the-art performance on the LRW dataset. The performance
can be further improved to 94.1% by pre-training on additional datasets. An
error analysis of the various training strategies reveals that the performance
improves by increasing the classification accuracy of hard-to-recognise words.
- Abstract(参考訳): いくつかのトレーニング戦略と時間モデルが、最近、独立した一連の作品において孤立した単語読解のために提案されている。
しかし、最良の戦略を組み合わせる可能性や、それらが与える影響についての調査は行われていない。
本稿では,最先端データ拡張手法,時間モデル,および自己蒸留や単語境界指標を用いた訓練戦略の性能を体系的に検討する。
その結果, 時間マスキング (tm) が最も重要であり, ミックスアップ, 密結合時相畳み込みネットワーク (dc-tcn) が分離単語のリップ読みに最適な時相モデルであることがわかった。
自己蒸留と単語境界指標の使用も有益であるが、少ない範囲で有用である。
これらの手法を組み合わせると、93.4%の分類精度が得られ、LRWデータセットの現在の最先端性能よりも4.6%向上した。
さらなるデータセットを事前トレーニングすることで、パフォーマンスをさらに94.1%向上させることができる。
各種学習手法の誤り解析により, 難解な単語の分類精度を高めることにより, 性能が向上することを明らかにする。
関連論文リスト
- Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Boosting Visual-Language Models by Exploiting Hard Samples [126.35125029639168]
HELIPは、既存のCLIPモデルの性能を高めるための費用対効果戦略である。
我々の方法では、既存のモデルのトレーニングパイプラインと懸命に統合できます。
包括的なベンチマークでは、HELIPはパフォーマンス向上のために既存のモデルを継続的に強化する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - Weighted Ensemble Self-Supervised Learning [67.24482854208783]
組み立ては、モデルパフォーマンスを高めるための強力なテクニックであることが証明されている。
我々は,データ依存型重み付きクロスエントロピー損失を許容するフレームワークを開発した。
提案手法は、ImageNet-1K上での複数の評価指標において、両者に優れる。
論文 参考訳(メタデータ) (2022-11-18T02:00:17Z) - Multi-Augmentation for Efficient Visual Representation Learning for
Self-supervised Pre-training [1.3733988835863333]
本稿では、パイプライン全体を構築するための様々な拡張ポリシーを網羅的に検索する、自己改善学習のためのマルチ強化(MA-SSRL)を提案する。
MA-SSRLは不変の特徴表現をうまく学習し、自己教師付き事前学習のための効率的で効果的で適応可能なデータ拡張パイプラインを提供する。
論文 参考訳(メタデータ) (2022-05-24T04:18:39Z) - Boost AI Power: Data Augmentation Strategies with unlabelled Data and
Conformal Prediction, a Case in Alternative Herbal Medicine Discrimination
with Electronic Nose [12.31253329379136]
電子鼻は代替医療の分類において有効であることが証明されているが、教師付き学習コストの性質のため、従来の研究はラベル付きトレーニングデータに依存していた。
本研究は,データ拡張戦略を用いて分類精度を向上させることを目的とする。
論文 参考訳(メタデータ) (2021-02-05T10:25:36Z) - Learn an Effective Lip Reading Model without Pains [96.21025771586159]
視覚的音声認識としても知られるリップ読み取りは、リップダイナミックスを解析することにより、ビデオから音声の内容を認識することを目的としている。
既存のほとんどの手法は、複雑なニューラルネットワークを構築することで高い性能を得た。
これらの戦略を適切に活用することは、モデルの大部分を変更することなく、常にエキサイティングな改善をもたらす可能性があることに気付きました。
論文 参考訳(メタデータ) (2020-11-15T15:29:19Z) - Ask-n-Learn: Active Learning via Reliable Gradient Representations for
Image Classification [29.43017692274488]
深い予測モデルは、ラベル付きトレーニングデータという形で人間の監督に依存する。
Ask-n-Learnは,各アルゴリズムで推定されたペスドラベルを用いて得られる勾配埋め込みに基づく能動的学習手法である。
論文 参考訳(メタデータ) (2020-09-30T05:19:56Z) - A Simple but Tough-to-Beat Data Augmentation Approach for Natural
Language Understanding and Generation [53.8171136907856]
カットオフと呼ばれる、シンプルで効果的なデータ拡張戦略のセットを紹介します。
カットオフはサンプリング一貫性に依存しているため、計算オーバーヘッドが少なくなる。
cutoffは、敵のトレーニングを一貫して上回り、IWSLT2014 German- English データセットで最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-09-29T07:08:35Z) - Robustly Pre-trained Neural Model for Direct Temporal Relation
Extraction [10.832917897850361]
BERT (Bidirectional Representation using Transformer) のいくつかの変種について検討した。
2012 i2b2 時間関係課題データセットのセマンティックな部分集合である直接時間関係データセットを用いて,これらの手法の評価を行った。
結果: 10倍のコーパスを含む事前学習戦略を取り入れたRoBERTaは,F値の絶対スコア(1.00スケール)を0.0864改善し,SVMモデルで達成した従来の最先端性能と比較して誤差率を24%低減した。
論文 参考訳(メタデータ) (2020-04-13T22:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。