論文の概要: Towards Practical Lipreading with Distilled and Efficient Models
- arxiv url: http://arxiv.org/abs/2007.06504v3
- Date: Wed, 2 Jun 2021 09:02:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 23:23:30.022472
- Title: Towards Practical Lipreading with Distilled and Efficient Models
- Title(参考訳): 蒸留・効率的モデルによる実用的リリーディングに向けて
- Authors: Pingchuan Ma, Brais Martinez, Stavros Petridis, Maja Pantic
- Abstract要約: ニューラルネットワークの復活により、リリーディングは多くの進歩を目の当たりにした。
最近の研究は、最適なアーキテクチャを見つけるか、一般化を改善することで、パフォーマンスを改善するといった側面に重点を置いている。
現在の方法論と、実践的なシナリオにおける効果的なリップリーディングのデプロイ要件との間には、依然として大きなギャップがあります。
まず, LRW と LRW-1000 をそれぞれ 88.5% と 46.6% に比例して, 最先端の性能を高めることを提案する。
- 参考スコア(独自算出の注目度): 57.41253104365274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lipreading has witnessed a lot of progress due to the resurgence of neural
networks. Recent works have placed emphasis on aspects such as improving
performance by finding the optimal architecture or improving generalization.
However, there is still a significant gap between the current methodologies and
the requirements for an effective deployment of lipreading in practical
scenarios. In this work, we propose a series of innovations that significantly
bridge that gap: first, we raise the state-of-the-art performance by a wide
margin on LRW and LRW-1000 to 88.5% and 46.6%, respectively using
self-distillation. Secondly, we propose a series of architectural changes,
including a novel Depthwise Separable Temporal Convolutional Network (DS-TCN)
head, that slashes the computational cost to a fraction of the (already quite
efficient) original model. Thirdly, we show that knowledge distillation is a
very effective tool for recovering performance of the lightweight models. This
results in a range of models with different accuracy-efficiency trade-offs.
However, our most promising lightweight models are on par with the current
state-of-the-art while showing a reduction of 8.2x and 3.9x in terms of
computational cost and number of parameters, respectively, which we hope will
enable the deployment of lipreading models in practical applications.
- Abstract(参考訳): lipreadingは、ニューラルネットワークの復活によって、多くの進歩を目の当たりにしている。
近年の研究では、最適アーキテクチャの発見や一般化の向上など、パフォーマンスの向上に重点を置いている。
しかし、現在の手法と実践的なシナリオにおける効果的なリップリーディングの展開要件との間には、依然として大きなギャップがある。
本稿では, このギャップを著しく埋める一連のイノベーションを提案する。まず, 自己蒸留を用いてLRWとLRW-1000を88.5%, 46.6%に大差で, 最先端性能を向上する。
次に,ds-tcnヘッドを奥行き分離可能な時間畳み込みネットワークとして設計し,計算コストを(かなり効率のよい)原型モデルに削減する手法を提案する。
第3に, 知識蒸留は軽量モデルの性能回復に非常に有効なツールであることを示す。
この結果、精度と効率のトレードオフが異なる様々なモデルが得られる。
しかしながら、我々の最も有望な軽量モデルは、計算コストとパラメータ数の点で8.2倍と3.9倍の削減を示しながら、現在の最先端のモデルと同等であり、実用的な応用にリップリーディングモデルの展開を期待する。
関連論文リスト
- HyCubE: Efficient Knowledge Hypergraph 3D Circular Convolutional Embedding [21.479738859698344]
モデルの有効性と効率のトレードオフに達するためには、知識ハイパーグラフの埋め込みが望ましいし、難しい。
本稿では,新しい3次元円形畳み込みニューラルネットワークを設計した,エンドツーエンドの知識ハイパーグラフ埋め込みモデルHyCubEを提案する。
提案手法は, 平均8.22%, 最大33.82%の改善により, 常に最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2024-02-14T06:05:37Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - Towards Compute-Optimal Transfer Learning [82.88829463290041]
我々は、事前訓練されたモデルのゼロショット構造化プルーニングにより、性能を最小限に抑えて計算効率を向上させることができると主張している。
その結果,事前訓練されたモデルの畳み込み畳み込みフィルタは,低計算条件下で20%以上の性能向上をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2023-04-25T21:49:09Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Knowledge distillation: A good teacher is patient and consistent [71.14922743774864]
最先端のパフォーマンスを実現する大規模モデルと、実用的な用途で手頃な価格のモデルとの間には、コンピュータビジョンの相違が増えている。
蒸留の有効性に大きな影響を及ぼす可能性のある,特定の暗黙的な設計選択を同定する。
ImageNetの最先端ResNet-50モデルが82.8%の精度で実現されている。
論文 参考訳(メタデータ) (2021-06-09T17:20:40Z) - Top-KAST: Top-K Always Sparse Training [50.05611544535801]
トレーニングを通して一定間隔を保存するTop-KASTを提案する。
確立したImageNetベンチマークのトレーニングモデルでは,従来の作業と同等かそれ以上に動作可能であることを示す。
ImageNetの結果に加えて、言語モデリングの分野においても、我々のアプローチを実証しています。
論文 参考訳(メタデータ) (2021-06-07T11:13:05Z) - AttentionLite: Towards Efficient Self-Attention Models for Vision [9.957033392865982]
本稿では,リソース制約のあるアプリケーションに対して,パラメータのクラスを生成・計算するための新しいフレームワークである attentionliteable を提案する。
計算量の多い教師から知識を同時蒸留でき、同時に学生モデルを1回の訓練パスで刈り取ることができる。
論文 参考訳(メタデータ) (2020-12-21T17:54:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。