Fugu-MT 論文翻訳(概要): Once-for-All Sequence Compression for Self-Supervised Speech Models

論文の概要: Once-for-All Sequence Compression for Self-Supervised Speech Models

arxiv url: http://arxiv.org/abs/2211.02332v1
Date: Fri, 4 Nov 2022 09:19:13 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-07 17:10:58.634778
Title: Once-for-All Sequence Compression for Self-Supervised Speech Models
Title（参考訳）: 自己教師付き音声モデルに対する一括圧縮
Authors: Hsuan-Jui Chen, Yen Meng, Hung-yi Lee
Abstract要約: 時間軸に沿ったシーケンス長は、しばしば自己教師付き音声モデルの計算コストの主要な要因である。本稿では,連続的な圧縮速度をサポートする自己教師型音声モデルのための一括圧縮フレームワークを提案する。
参考スコア（独自算出の注目度）: 62.60723685118747
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The sequence length along the time axis is often the dominant factor of the computational cost of self-supervised speech models. Works have been proposed to reduce the sequence length for lowering the computational cost. However, different downstream tasks have different tolerance of sequence compressing, so a model that produces a fixed compressing rate may not fit all tasks. In this work, we introduce a once-for-all (OFA) sequence compression framework for self-supervised speech models that supports a continuous range of compressing rates. The framework is evaluated on various tasks, showing marginal degradation compared to the fixed compressing rate variants with a smooth performance-efficiency trade-off. We further explore adaptive compressing rate learning, demonstrating the ability to select task-specific preferred frame periods without needing a grid search.
Abstract（参考訳）: 時間軸に沿ったシーケンス長は、しばしば自己教師付き音声モデルの計算コストの主要な要因である。計算コストを下げるためのシーケンス長を削減する作業が提案されている。しかし、異なるダウンストリームタスクはシーケンス圧縮の許容度が異なるため、固定圧縮率を生成するモデルは全てのタスクに適合しない可能性がある。本稿では,連続的な圧縮率をサポートする自己教師あり音声モデルのための1回限りの(ofa)シーケンス圧縮フレームワークを提案する。このフレームワークは様々なタスクで評価され、スムーズな性能と効率のトレードオフを持つ固定圧縮率の変動に比べて限界劣化を示す。さらに,適応圧縮率学習を探求し,グリッド探索を必要とせず,タスク固有の推奨フレーム周期を選択できることを示す。

関連論文リスト

KV-Distill: Nearly Lossless Learnable Context Compression for LLMs [37.0803484148612]
我々は、長いコンテキストKVキャッシュをはるかに短い表現に蒸留するTransformer圧縮フレームワークであるKV-Distillを紹介する。 KV-Distillは、事前訓練されたモデルに対するパラメータ効率の良い適応器として訓練することができる。ドメイン固有のコンテキストを微調整することで、下流のパフォーマンスを維持しながら、最大99%の長さを削減できる。
論文参考訳（メタデータ） (2025-03-13T13:15:28Z)
Choose Your Model Size: Any Compression by a Single Gradient Descent [9.074689052563878]
イテレーティブ・プルーニング(ACIP)による圧縮について紹介する。 ACIPは、単一の勾配降下ランから圧縮性能トレードオフを決定するアルゴリズム的なアプローチである。本稿では,ACIPが共通量子化に基づく圧縮手法をシームレスに補完することを示す。
論文参考訳（メタデータ） (2025-02-03T18:40:58Z)
Style-Compress: An LLM-Based Prompt Compression Framework Considering Task-Specific Styles [49.65811277223873]
Style-Compressは、より小さな言語モデルを適用して、新たなタスクでより大きなモデルのプロンプトを、追加のトレーニングなしで圧縮する軽量フレームワークである。提案手法は,実効圧縮プロンプトを,スタイルのバリエーションやコンテキスト内学習を通じて,タスク固有の実演として反復的に生成し,選択する。 Style-Compressは、オリジナルのプロンプト再構成、テキスト要約、マルチホップQA、CoT推論の4つのタスクで2つのベースライン圧縮モデルを上回っている。
論文参考訳（メタデータ） (2024-10-17T21:35:49Z)
Token Compensator: Altering Inference Cost of Vision Transformer without Re-Tuning [63.43972993473501]
視覚変換器(ViT)の訓練と推論を高速化するトークン圧縮しかし、下流タスクに適用した場合、圧縮度はトレーニングと推論の段階で不一致となる。本稿では,2段階間の圧縮度を分離するモデル演算フレームワークを提案する。
論文参考訳（メタデータ） (2024-08-13T10:36:43Z)
Ultra Dual-Path Compression For Joint Echo Cancellation And Noise Suppression [38.09558772881095]
固定圧縮比の下では、時間と周波数の両方の手法を組み合わせたデュアルパス圧縮により、さらなる性能向上が期待できる。提案されたモデルは、高速なFullSubNetやDeepNetFilterと比較して、競争力のある性能を示している。
論文参考訳（メタデータ） (2023-08-21T21:36:56Z)
Latent Discretization for Continuous-time Sequence Compression [21.062288207034968]
本研究では、データシーケンスを、基礎となる連続時間プロセスからの観測として扱う。本手法は,識別の仕方を学習することで,ビットレートの低減を自動で実現できることを示す。
論文参考訳（メタデータ） (2022-12-28T01:15:27Z)
On Compressing Sequences for Self-Supervised Speech Models [78.62210521316081]
自己教師型学習における時間軸に沿った固定長と可変長のサブサンプリングについて検討した。可変長サブサンプリングは,低フレームレートで特に良好に動作することがわかった。音素境界にアクセスできる場合、平均フレームレートが10Hz以下の場合、性能の劣化は見つからない。
論文参考訳（メタデータ） (2022-10-13T17:10:02Z)
Incremental Text to Speech for Neural Sequence-to-Sequence Models using Reinforcement Learning [60.20205278845412]
テキストから音声への現代的なアプローチでは、音声が合成される前に入力文字列全体を処理する必要がある。このレイテンシは、同時解釈のような時間に敏感なタスクに対するそのようなモデルの適合性を制限します。エージェントを訓練して意思決定を行うための強化学習に基づくフレームワークを提案する。
論文参考訳（メタデータ） (2020-08-07T11:48:05Z)
Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文参考訳（メタデータ） (2020-02-26T12:24:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。