論文の概要: On Compressing Sequences for Self-Supervised Speech Models
- arxiv url: http://arxiv.org/abs/2210.07189v2
- Date: Fri, 14 Oct 2022 15:21:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 12:31:34.357469
- Title: On Compressing Sequences for Self-Supervised Speech Models
- Title(参考訳): 自己教師付き音声モデルの圧縮シーケンスについて
- Authors: Yen Meng, Hsuan-Jui Chen, Jiatong Shi, Shinji Watanabe, Paola Garcia,
Hung-yi Lee, Hao Tang
- Abstract要約: 自己教師型学習における時間軸に沿った固定長と可変長のサブサンプリングについて検討した。
可変長サブサンプリングは,低フレームレートで特に良好に動作することがわかった。
音素境界にアクセスできる場合、平均フレームレートが10Hz以下の場合、性能の劣化は見つからない。
- 参考スコア(独自算出の注目度): 78.62210521316081
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compressing self-supervised models has become increasingly necessary, as
self-supervised models become larger. While previous approaches have primarily
focused on compressing the model size, shortening sequences is also effective
in reducing the computational cost. In this work, we study fixed-length and
variable-length subsampling along the time axis in self-supervised learning. We
explore how individual downstream tasks are sensitive to input frame rates.
Subsampling while training self-supervised models not only improves the overall
performance on downstream tasks under certain frame rates, but also brings
significant speed-up in inference. Variable-length subsampling performs
particularly well under low frame rates. In addition, if we have access to
phonetic boundaries, we find no degradation in performance for an average frame
rate as low as 10 Hz.
- Abstract(参考訳): 自己教師モデルが大きくなるにつれて、自己教師モデル圧縮の必要性が高まっている。
従来のアプローチはモデルサイズを圧縮することに集中していたが、計算コストの削減にも効果がある。
本研究では,自己教師付き学習における時間軸に沿った固定長と可変長のサブサンプリングについて検討する。
個々の下流タスクが入力フレームレートにどのように敏感であるかを検討する。
自己教師型モデルのトレーニング中のサブサンプリングは、ダウンストリームタスク全体のパフォーマンスを特定のフレームレートで改善するだけでなく、推論の大幅なスピードアップをもたらす。
可変長サブサンプリングは特に低フレームレートでうまく機能する。
さらに, 音素境界にアクセスできる場合, 平均フレームレートが10Hz以下の場合, 性能劣化は生じない。
関連論文リスト
- Diffusion Auto-regressive Transformer for Effective Self-supervised Time Series Forecasting [47.58016750718323]
我々はTimeDARTと呼ばれる新しい自己管理手法を提案する。
TimeDARTは、時系列データ内のグローバルシーケンス依存とローカル詳細特徴の両方をキャプチャする。
私たちのコードはhttps://github.com/Melmaphother/TimeDART.comで公開されています。
論文 参考訳(メタデータ) (2024-10-08T06:08:33Z) - DAISY: Data Adaptive Self-Supervised Early Exit for Speech Representation Models [55.608981341747246]
本稿では,データ適応型自己監督早期退避(DAISY)を導入する。
DAISYの適応性に関する分析では、ノイズの多いデータ上で(より多くのレイヤを使用して)遅い時間に、クリーンデータ上で(より少ないレイヤを使用して)モデルが早期に(より少ないレイヤを使用して)終了することを示しています。
論文 参考訳(メタデータ) (2024-06-08T12:58:13Z) - HumMUSS: Human Motion Understanding using State Space Models [6.821961232645209]
本稿では,最近の状態空間モデルの発展にともなう,人間の動作理解構築のための新しいアテンションフリーモデルを提案する。
私たちのモデルはオフラインとリアルタイムの両方のアプリケーションをサポートします。
リアルタイムの逐次予測では、このモデルはトランスフォーマーベースのアプローチよりもメモリ効率が高く、数倍高速である。
論文 参考訳(メタデータ) (2024-04-16T19:59:21Z) - Efficient Video Prediction via Sparsely Conditioned Flow Matching [24.32740918613266]
本稿では,遅延フローマッチングに基づく映像予測のための新しい生成モデルを提案する。
我々は、VidEo pRedictionのためのRandomフレーム条件付きフロー統合(Random frame conditioned flow Integration)または略してRIVER(Random frame conditioned flow Integration)と呼ぶ。
論文 参考訳(メタデータ) (2022-11-26T14:18:50Z) - Once-for-All Sequence Compression for Self-Supervised Speech Models [62.60723685118747]
自己教師型音声モデルのための一括圧縮フレームワークを提案する。
このフレームワークは様々なタスクで評価され、固定圧縮率の変種と比較して限界劣化を示す。
また、適応圧縮率学習についても検討し、グリッド探索を必要とせず、タスク固有の好ましいフレーム期間を選択する能力を示す。
論文 参考訳(メタデータ) (2022-11-04T09:19:13Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。