論文の概要: Once-for-All Sequence Compression for Self-Supervised Speech Models
- arxiv url: http://arxiv.org/abs/2211.02332v1
- Date: Fri, 4 Nov 2022 09:19:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 17:10:58.634778
- Title: Once-for-All Sequence Compression for Self-Supervised Speech Models
- Title(参考訳): 自己教師付き音声モデルに対する一括圧縮
- Authors: Hsuan-Jui Chen, Yen Meng, Hung-yi Lee
- Abstract要約: 時間軸に沿ったシーケンス長は、しばしば自己教師付き音声モデルの計算コストの主要な要因である。
本稿では,連続的な圧縮速度をサポートする自己教師型音声モデルのための一括圧縮フレームワークを提案する。
- 参考スコア(独自算出の注目度): 62.60723685118747
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The sequence length along the time axis is often the dominant factor of the
computational cost of self-supervised speech models. Works have been proposed
to reduce the sequence length for lowering the computational cost. However,
different downstream tasks have different tolerance of sequence compressing, so
a model that produces a fixed compressing rate may not fit all tasks. In this
work, we introduce a once-for-all (OFA) sequence compression framework for
self-supervised speech models that supports a continuous range of compressing
rates. The framework is evaluated on various tasks, showing marginal
degradation compared to the fixed compressing rate variants with a smooth
performance-efficiency trade-off. We further explore adaptive compressing rate
learning, demonstrating the ability to select task-specific preferred frame
periods without needing a grid search.
- Abstract(参考訳): 時間軸に沿ったシーケンス長は、しばしば自己教師付き音声モデルの計算コストの主要な要因である。
計算コストを下げるためのシーケンス長を削減する作業が提案されている。
しかし、異なるダウンストリームタスクはシーケンス圧縮の許容度が異なるため、固定圧縮率を生成するモデルは全てのタスクに適合しない可能性がある。
本稿では,連続的な圧縮率をサポートする自己教師あり音声モデルのための1回限りの(ofa)シーケンス圧縮フレームワークを提案する。
このフレームワークは様々なタスクで評価され、スムーズな性能と効率のトレードオフを持つ固定圧縮率の変動に比べて限界劣化を示す。
さらに,適応圧縮率学習を探求し,グリッド探索を必要とせず,タスク固有の推奨フレーム周期を選択できることを示す。
関連論文リスト
- Style-Compress: An LLM-Based Prompt Compression Framework Considering Task-Specific Styles [49.65811277223873]
Style-Compressは、より小さな言語モデルを適用して、新たなタスクでより大きなモデルのプロンプトを、追加のトレーニングなしで圧縮する軽量フレームワークである。
提案手法は,実効圧縮プロンプトを,スタイルのバリエーションやコンテキスト内学習を通じて,タスク固有の実演として反復的に生成し,選択する。
Style-Compressは、オリジナルのプロンプト再構成、テキスト要約、マルチホップQA、CoT推論の4つのタスクで2つのベースライン圧縮モデルを上回っている。
論文 参考訳(メタデータ) (2024-10-17T21:35:49Z) - Token Compensator: Altering Inference Cost of Vision Transformer without Re-Tuning [63.43972993473501]
視覚変換器(ViT)の訓練と推論を高速化するトークン圧縮
しかし、下流タスクに適用した場合、圧縮度はトレーニングと推論の段階で不一致となる。
本稿では,2段階間の圧縮度を分離するモデル演算フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T10:36:43Z) - Ultra Dual-Path Compression For Joint Echo Cancellation And Noise
Suppression [38.09558772881095]
固定圧縮比の下では、時間と周波数の両方の手法を組み合わせたデュアルパス圧縮により、さらなる性能向上が期待できる。
提案されたモデルは、高速なFullSubNetやDeepNetFilterと比較して、競争力のある性能を示している。
論文 参考訳(メタデータ) (2023-08-21T21:36:56Z) - Latent Discretization for Continuous-time Sequence Compression [21.062288207034968]
本研究では、データシーケンスを、基礎となる連続時間プロセスからの観測として扱う。
本手法は,識別の仕方を学習することで,ビットレートの低減を自動で実現できることを示す。
論文 参考訳(メタデータ) (2022-12-28T01:15:27Z) - On Compressing Sequences for Self-Supervised Speech Models [78.62210521316081]
自己教師型学習における時間軸に沿った固定長と可変長のサブサンプリングについて検討した。
可変長サブサンプリングは,低フレームレートで特に良好に動作することがわかった。
音素境界にアクセスできる場合、平均フレームレートが10Hz以下の場合、性能の劣化は見つからない。
論文 参考訳(メタデータ) (2022-10-13T17:10:02Z) - Incremental Text to Speech for Neural Sequence-to-Sequence Models using
Reinforcement Learning [60.20205278845412]
テキストから音声への現代的なアプローチでは、音声が合成される前に入力文字列全体を処理する必要がある。
このレイテンシは、同時解釈のような時間に敏感なタスクに対するそのようなモデルの適合性を制限します。
エージェントを訓練して意思決定を行うための強化学習に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-07T11:48:05Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。