論文の概要: Training Strategies for Improved Lip-reading
- arxiv url: http://arxiv.org/abs/2209.01383v1
- Date: Sat, 3 Sep 2022 09:38:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 12:56:58.230900
- Title: Training Strategies for Improved Lip-reading
- Title(参考訳): リップリーディング改善のためのトレーニング戦略
- Authors: Pingchuan Ma, Yujiang Wang, Stavros Petridis, Jie Shen, Maja Pantic
- Abstract要約: 本研究では,最先端データ拡張手法,時間モデル,その他のトレーニング戦略の性能について検討する。
すべての手法を組み合わせると、分類精度は93.4%となり、現在の最先端技術よりも4.6%向上した。
各種学習手法の誤り解析により, 難解な単語の分類精度を高めることにより, 性能が向上することが明らかとなった。
- 参考スコア(独自算出の注目度): 61.661446956793604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Several training strategies and temporal models have been recently proposed
for isolated word lip-reading in a series of independent works. However, the
potential of combining the best strategies and investigating the impact of each
of them has not been explored. In this paper, we systematically investigate the
performance of state-of-the-art data augmentation approaches, temporal models
and other training strategies, like self-distillation and using word boundary
indicators. Our results show that Time Masking (TM) is the most important
augmentation followed by mixup and Densely-Connected Temporal Convolutional
Networks (DC-TCN) are the best temporal model for lip-reading of isolated
words. Using self-distillation and word boundary indicators is also beneficial
but to a lesser extent. A combination of all the above methods results in a
classification accuracy of 93.4%, which is an absolute improvement of 4.6% over
the current state-of-the-art performance on the LRW dataset. The performance
can be further improved to 94.1% by pre-training on additional datasets. An
error analysis of the various training strategies reveals that the performance
improves by increasing the classification accuracy of hard-to-recognise words.
- Abstract(参考訳): いくつかのトレーニング戦略と時間モデルが、最近、独立した一連の作品において孤立した単語読解のために提案されている。
しかし、最良の戦略を組み合わせる可能性や、それらが与える影響についての調査は行われていない。
本稿では,最先端データ拡張手法,時間モデル,および自己蒸留や単語境界指標を用いた訓練戦略の性能を体系的に検討する。
その結果, 時間マスキング (tm) が最も重要であり, ミックスアップ, 密結合時相畳み込みネットワーク (dc-tcn) が分離単語のリップ読みに最適な時相モデルであることがわかった。
自己蒸留と単語境界指標の使用も有益であるが、少ない範囲で有用である。
これらの手法を組み合わせると、93.4%の分類精度が得られ、LRWデータセットの現在の最先端性能よりも4.6%向上した。
さらなるデータセットを事前トレーニングすることで、パフォーマンスをさらに94.1%向上させることができる。
各種学習手法の誤り解析により, 難解な単語の分類精度を高めることにより, 性能が向上することを明らかにする。
関連論文リスト
- Guidelines for Augmentation Selection in Contrastive Learning for Time Series Classification [7.712601563682029]
我々は、トレンドや季節といったデータセットの特徴に基づいて、拡張を選択するための原則的な枠組みを確立する。
次に、12の合成データセットと6つの実世界のデータセットにまたがる8つの異なる拡張の有効性を評価する。
提案手法は,時系列データセットの有効拡張を正確に識別する。
論文 参考訳(メタデータ) (2024-07-12T15:13:16Z) - Contrastive-Adversarial and Diffusion: Exploring pre-training and fine-tuning strategies for sulcal identification [3.0398616939692777]
対人学習、コントラスト学習、拡散認知学習、通常の再構成学習といった技術が標準となっている。
この研究は、ニューラルネットワークの学習プロセスを強化するために、事前学習技術と微調整戦略の利点を解明することを目的としている。
論文 参考訳(メタデータ) (2024-05-29T15:44:51Z) - Efficient Ensembles Improve Training Data Attribution [12.180392191924758]
トレーニングデータ帰属法は、データ中心AIにおける幅広い応用により、個々のデータポイントがモデル予測に与える影響を定量化することを目的としている。
この分野の既存の手法は、リトレーニングベースとグラデーションベースに分類されるが、有害なトレードオフ帰属効果に苦慮している。
近年の研究では、複数の独立に訓練されたモデルのアンサンブルによる勾配に基づく手法の強化が、より優れた帰属を達成できることが示されている。
論文 参考訳(メタデータ) (2024-05-27T15:58:34Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Boosting Visual-Language Models by Exploiting Hard Samples [126.35125029639168]
HELIPは、既存のCLIPモデルの性能を高めるための費用対効果戦略である。
我々の方法では、既存のモデルのトレーニングパイプラインと懸命に統合できます。
包括的なベンチマークでは、HELIPはパフォーマンス向上のために既存のモデルを継続的に強化する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - Boost AI Power: Data Augmentation Strategies with unlabelled Data and
Conformal Prediction, a Case in Alternative Herbal Medicine Discrimination
with Electronic Nose [12.31253329379136]
電子鼻は代替医療の分類において有効であることが証明されているが、教師付き学習コストの性質のため、従来の研究はラベル付きトレーニングデータに依存していた。
本研究は,データ拡張戦略を用いて分類精度を向上させることを目的とする。
論文 参考訳(メタデータ) (2021-02-05T10:25:36Z) - Learn an Effective Lip Reading Model without Pains [96.21025771586159]
視覚的音声認識としても知られるリップ読み取りは、リップダイナミックスを解析することにより、ビデオから音声の内容を認識することを目的としている。
既存のほとんどの手法は、複雑なニューラルネットワークを構築することで高い性能を得た。
これらの戦略を適切に活用することは、モデルの大部分を変更することなく、常にエキサイティングな改善をもたらす可能性があることに気付きました。
論文 参考訳(メタデータ) (2020-11-15T15:29:19Z) - A Simple but Tough-to-Beat Data Augmentation Approach for Natural
Language Understanding and Generation [53.8171136907856]
カットオフと呼ばれる、シンプルで効果的なデータ拡張戦略のセットを紹介します。
カットオフはサンプリング一貫性に依存しているため、計算オーバーヘッドが少なくなる。
cutoffは、敵のトレーニングを一貫して上回り、IWSLT2014 German- English データセットで最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-09-29T07:08:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。