論文の概要: Continuous sign language recognition based on cross-resolution knowledge
distillation
- arxiv url: http://arxiv.org/abs/2303.06820v1
- Date: Mon, 13 Mar 2023 02:33:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 16:40:22.368831
- Title: Continuous sign language recognition based on cross-resolution knowledge
distillation
- Title(参考訳): クロスレゾリューション知識蒸留に基づく連続手話認識
- Authors: Qidan Zhu, Jing Li, Fei Yuan, Quan Gan
- Abstract要約: 本稿では,教師ネットワークの出力と同一の規模でフレームレベルの特徴を出力するフレームレベルの特徴抽出器を提案する。
その後、クロスレゾリューションの知識蒸留法と伝統的な知識蒸留法を組み合わせてCSLRモデルを形成する。
2つの大規模連続手話データセットの実験によりCRKDの有効性が証明された。
- 参考スコア(独自算出の注目度): 10.920363368754721
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of continuous sign language recognition(CSLR) research is to apply
CSLR models as a communication tool in real life, and the real-time requirement
of the models is important. In this paper, we address the model real-time
problem through cross-resolution knowledge distillation. In our study, we found
that keeping the frame-level feature scales consistent between the output of
the student network and the teacher network is better than recovering the
frame-level feature sizes for feature distillation. Based on this finding, we
propose a new frame-level feature extractor that keeps the output frame-level
features at the same scale as the output of by the teacher network. We further
combined with the TSCM+2D hybrid convolution proposed in our previous study to
form a new lightweight end-to-end CSLR network-Low resolution input
net(LRINet). It is then used to combine cross-resolution knowledge distillation
and traditional knowledge distillation methods to form a CSLR model based on
cross-resolution knowledge distillation (CRKD). The CRKD uses high-resolution
frames as input to the teacher network for training, locks the weights after
training, and then uses low-resolution frames as input to the student network
LRINet to perform knowledge distillation on frame-level features and
classification features respectively. Experiments on two large-scale continuous
sign language datasets have proved the effectiveness of CRKD. Compared with the
model with high-resolution data as input, the calculation amount, parameter
amount and inference time of the model have been significantly reduced under
the same experimental conditions, while ensuring the accuracy of the model, and
has achieved very competitive results in comparison with other advanced
methods.
- Abstract(参考訳): 連続手話認識(CSLR)研究の目標は,CSLRモデルを実生活におけるコミュニケーションツールとして活用することであり,モデルのリアルタイム要求が重要である。
本稿では,クロスレゾリューション知識蒸留によるモデル実時間問題に対処する。
本研究では, 学生ネットワークの出力と教師ネットワークのフレームレベルの特徴量を一定に保つことは, 特徴蒸留のためのフレームレベルの特徴量を回復させるよりも優れていることを示した。
そこで本研究では,教師ネットワークが出力するフレームレベル特徴量と同じスケールで出力フレームレベル特徴量を保持する新しいフレームレベル特徴抽出器を提案する。
さらに,従来の研究で提案したTSCM+2Dハイブリッド畳み込みと組み合わせて,CSLRネットワーク-Low解像度入力ネット(LRINet)を新たに構築する。
その後、クロスレゾリューション知識蒸留と伝統的な知識蒸留法を組み合わせて、クロスレゾリューション知識蒸留(CRKD)に基づくCSLRモデルを形成する。
CRKDは、教師ネットワークへの入力として高解像度フレームを使用し、トレーニング後の重みをロックし、学生ネットワークLRINetへの入力として低解像度フレームを使用して、フレームレベルの特徴と分類機能に関する知識蒸留を行う。
2つの大規模連続手話データセットの実験によりCRKDの有効性が証明された。
入力として高分解能データを用いたモデルと比較すると、モデルの計算量、パラメータ量、推論時間が同じ実験条件下で大幅に削減され、モデルの精度が保証され、他の高度な手法と比較して非常に競争力のある結果が得られた。
関連論文リスト
- Cross-Domain Knowledge Distillation for Low-Resolution Human Pose Estimation [31.970739018426645]
人間のポーズ推定の実践的応用では、低解像度の入力が頻繁に発生し、既存の最先端モデルでは低解像度の画像では不十分である。
本研究は,高分解能モデルから知識を抽出することにより,低分解能モデルの性能向上に重点を置いている。
論文 参考訳(メタデータ) (2024-05-19T04:57:17Z) - Directed Acyclic Graph Factorization Machines for CTR Prediction via
Knowledge Distillation [65.62538699160085]
本稿では,既存の複雑な相互作用モデルから,知識蒸留によるCTR予測のための高次特徴相互作用を学習するための非巡回グラフファクトリゼーションマシン(KD-DAGFM)を提案する。
KD-DAGFMは、オンラインとオフラインの両方の実験において、最先端のFLOPの21.5%未満で最高の性能を達成する。
論文 参考訳(メタデータ) (2022-11-21T03:09:42Z) - Temporal superimposed crossover module for effective continuous sign
language [10.920363368754721]
本稿では、ゼロパラメータ、ゼロ時間重畳クロスオーバーモジュール(TSCM)を提案し、それを2次元畳み込みと組み合わせて「TSCM+2D畳み込み」ハイブリッド畳み込みを形成する。
2つの大規模連続手話データセットの実験により,提案手法の有効性を実証し,高い競争力を持つ結果を得た。
論文 参考訳(メタデータ) (2022-11-07T09:33:42Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - Learning Transformer Features for Image Quality Assessment [53.51379676690971]
本稿では,CNNバックボーンとトランスフォーマーエンコーダを用いて特徴抽出を行うIQAフレームワークを提案する。
提案するフレームワークはFRモードとNRモードの両方と互換性があり、共同トレーニング方式が可能である。
論文 参考訳(メタデータ) (2021-12-01T13:23:00Z) - How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。
我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。
特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文 参考訳(メタデータ) (2021-10-22T21:30:53Z) - Cross-modal Knowledge Distillation for Vision-to-Sensor Action
Recognition [12.682984063354748]
本研究では、VSKDフレームワークをエンドツーエンドで導入する。
このVSKDフレームワークでは、テストフェーズ中にウェアラブルデバイスから必要となるのは時系列データ(加速度計データ)のみである。
このフレームワークは、エッジデバイスに対する計算要求を減らすだけでなく、計算コストのかかるマルチモーダルアプローチのパフォーマンスと密に一致した学習モデルも生成する。
論文 参考訳(メタデータ) (2021-10-08T15:06:38Z) - Multi-Scale Aligned Distillation for Low-Resolution Detection [68.96325141432078]
本稿では,高分解能モデルや多分解能モデルから知識を抽出することで,低分解能モデルの性能を向上させることに焦点を当てる。
いくつかのインスタンスレベルの検出タスクとデータセットにおいて,本手法を用いて訓練された低解像度モデルと,従来のマルチスケールトレーニングによる訓練された高解像度モデルとを競合的に処理する。
論文 参考訳(メタデータ) (2021-09-14T12:53:35Z) - Efficient training of lightweight neural networks using Online
Self-Acquired Knowledge Distillation [51.66271681532262]
オンライン自己獲得知識蒸留(OSAKD)は、ディープニューラルネットワークの性能をオンライン的に向上することを目的としている。
出力特徴空間におけるデータサンプルの未知確率分布を推定するために、k-nnノンパラメトリック密度推定手法を用いる。
論文 参考訳(メタデータ) (2021-08-26T14:01:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。