論文の概要: Once-for-All Sequence Compression for Self-Supervised Speech Models
- arxiv url: http://arxiv.org/abs/2211.02332v4
- Date: Tue, 9 May 2023 11:14:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 20:39:37.178710
- Title: Once-for-All Sequence Compression for Self-Supervised Speech Models
- Title(参考訳): 自己教師付き音声モデルに対する一括圧縮
- Authors: Hsuan-Jui Chen, Yen Meng, Hung-yi Lee
- Abstract要約: 自己教師型音声モデルのための一括圧縮フレームワークを提案する。
このフレームワークは様々なタスクで評価され、固定圧縮率の変種と比較して限界劣化を示す。
また、適応圧縮率学習についても検討し、グリッド探索を必要とせず、タスク固有の好ましいフレーム期間を選択する能力を示す。
- 参考スコア(独自算出の注目度): 62.60723685118747
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The sequence length along the time axis is often the dominant factor of the
computation in speech processing. Works have been proposed to reduce the
sequence length for lowering the computational cost in self-supervised speech
models. However, different downstream tasks have different tolerance of
sequence compressing, so a model that produces a fixed compressing rate may not
fit all tasks. In this work, we introduce a once-for-all (OFA) sequence
compression framework for self-supervised speech models that supports a
continuous range of operating compressing rates. The framework is evaluated on
various tasks, showing marginal degradation compared to the fixed compressing
rate variants with a smooth performance-efficiency trade-off. We further
explore adaptive compressing rate learning, demonstrating the ability to select
task-specific preferred frame periods without needing a grid search.
- Abstract(参考訳): 時間軸に沿ったシーケンス長は、しばしば音声処理における計算の主要な要素である。
自己教師型音声モデルにおける計算コストを下げるためのシーケンス長を削減する作業が提案されている。
しかし、異なるダウンストリームタスクはシーケンス圧縮の許容度が異なるため、固定圧縮率を生成するモデルは全てのタスクに適合しない可能性がある。
本研究では、連続的な操作圧縮率をサポートする自己教師型音声モデルのための1回限りの(OFA)シーケンス圧縮フレームワークを提案する。
このフレームワークは様々なタスクで評価され、スムーズな性能と効率のトレードオフを持つ固定圧縮率の変動に比べて限界劣化を示す。
さらに,適応圧縮率学習を探求し,グリッド探索を必要とせず,タスク固有の推奨フレーム周期を選択できることを示す。
関連論文リスト
- Style-Compress: An LLM-Based Prompt Compression Framework Considering Task-Specific Styles [49.65811277223873]
Style-Compressは、より小さな言語モデルを適用して、新たなタスクでより大きなモデルのプロンプトを、追加のトレーニングなしで圧縮する軽量フレームワークである。
提案手法は,実効圧縮プロンプトを,スタイルのバリエーションやコンテキスト内学習を通じて,タスク固有の実演として反復的に生成し,選択する。
Style-Compressは、オリジナルのプロンプト再構成、テキスト要約、マルチホップQA、CoT推論の4つのタスクで2つのベースライン圧縮モデルを上回っている。
論文 参考訳(メタデータ) (2024-10-17T21:35:49Z) - Token Compensator: Altering Inference Cost of Vision Transformer without Re-Tuning [63.43972993473501]
視覚変換器(ViT)の訓練と推論を高速化するトークン圧縮
しかし、下流タスクに適用した場合、圧縮度はトレーニングと推論の段階で不一致となる。
本稿では,2段階間の圧縮度を分離するモデル演算フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T10:36:43Z) - Ultra Dual-Path Compression For Joint Echo Cancellation And Noise
Suppression [38.09558772881095]
固定圧縮比の下では、時間と周波数の両方の手法を組み合わせたデュアルパス圧縮により、さらなる性能向上が期待できる。
提案されたモデルは、高速なFullSubNetやDeepNetFilterと比較して、競争力のある性能を示している。
論文 参考訳(メタデータ) (2023-08-21T21:36:56Z) - Latent Discretization for Continuous-time Sequence Compression [21.062288207034968]
本研究では、データシーケンスを、基礎となる連続時間プロセスからの観測として扱う。
本手法は,識別の仕方を学習することで,ビットレートの低減を自動で実現できることを示す。
論文 参考訳(メタデータ) (2022-12-28T01:15:27Z) - On Compressing Sequences for Self-Supervised Speech Models [78.62210521316081]
自己教師型学習における時間軸に沿った固定長と可変長のサブサンプリングについて検討した。
可変長サブサンプリングは,低フレームレートで特に良好に動作することがわかった。
音素境界にアクセスできる場合、平均フレームレートが10Hz以下の場合、性能の劣化は見つからない。
論文 参考訳(メタデータ) (2022-10-13T17:10:02Z) - Incremental Text to Speech for Neural Sequence-to-Sequence Models using
Reinforcement Learning [60.20205278845412]
テキストから音声への現代的なアプローチでは、音声が合成される前に入力文字列全体を処理する必要がある。
このレイテンシは、同時解釈のような時間に敏感なタスクに対するそのようなモデルの適合性を制限します。
エージェントを訓練して意思決定を行うための強化学習に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-07T11:48:05Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。