論文の概要: How to Estimate Model Transferability of Pre-Trained Speech Models?
- arxiv url: http://arxiv.org/abs/2306.01015v2
- Date: Fri, 25 Aug 2023 13:50:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-28 17:11:42.372785
- Title: How to Estimate Model Transferability of Pre-Trained Speech Models?
- Title(参考訳): 事前学習音声モデルのモデル伝達可能性の推定法
- Authors: Zih-Ching Chen, Chao-Han Huck Yang, Bo Li, Yu Zhang, Nanxin Chen,
Shou-Yiin Chang, Rohit Prabhavalkar, Hung-yi Lee, Tara N. Sainath
- Abstract要約: 事前学習音声モデルの伝達可能性推定のためのスコアベースアセスメントフレームワーク
ベイズ確率推定と最適輸送という2つの表現理論を利用して、PSM候補のランクスコアを生成する。
本フレームワークは,候補モデルやレイヤを実際に微調整することなく,転送可能性スコアを効率的に計算する。
- 参考スコア(独自算出の注目度): 80.02309591351847
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we introduce a "score-based assessment" framework for
estimating the transferability of pre-trained speech models (PSMs) for
fine-tuning target tasks. We leverage upon two representation theories,
Bayesian likelihood estimation and optimal transport, to generate rank scores
for the PSM candidates using the extracted representations. Our framework
efficiently computes transferability scores without actual fine-tuning of
candidate models or layers by making a temporal independent hypothesis. We
evaluate some popular supervised speech models (e.g., Conformer RNN-Transducer)
and self-supervised speech models (e.g., HuBERT) in cross-layer and cross-model
settings using public data. Experimental results show a high Spearman's rank
correlation and low $p$-value between our estimation framework and fine-tuning
ground truth. Our proposed transferability framework requires less
computational time and resources, making it a resource-saving and
time-efficient approach for tuning speech foundation models.
- Abstract(参考訳): 本研究では,学習対象タスクに対する事前学習音声モデル(PSM)の伝達可能性を推定する「スコアベースアセスメント」フレームワークを提案する。
我々は,ベイズ推定法と最適移動法という2つの表現理論を用いて,抽出した表現を用いてpsm候補のランクスコアを生成する。
提案手法は, 時間的独立仮説を定めて, 候補モデルやレイヤの微調整をすることなく, 転送可能性スコアを効率的に計算する。
公開データを用いて,一般的な教師付き音声モデル (Conformer RNN-Transducerなど) と自己教師付き音声モデル (HuBERTなど) をクロス層およびクロスモデル設定で評価する。
実験の結果,スピアマンのランク相関は高く,評価フレームワークと微調整の土台真実との間にはp$-値が低いことがわかった。
提案する転送性フレームワークは計算時間と資源を少なくし,音声基礎モデルをチューニングするための資源節約と時間効率のアプローチとなる。
関連論文リスト
- A Large-Scale Evaluation of Speech Foundation Models [110.95827399522204]
音声処理ユニバーサルパフォーマンスベンチマーク(SUPERB)を構築し,基礎モデルパラダイムの有効性について検討する。
凍結基盤モデルを用いてSUPERBにおける音声処理タスクに対処する統合マルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-15T00:03:16Z) - Lipsum-FT: Robust Fine-Tuning of Zero-Shot Models Using Random Text Guidance [27.91782770050068]
大規模なコントラスト付き視覚言語事前学習モデルは、下流データでのトレーニングを必要とせず、様々な画像分類タスクの競合性能を達成するゼロショットモデルを提供する。
近年の研究では、参照データにゼロショットモデルの微調整を加えることで、下流のパフォーマンスが向上することが確認されているが、分散シフトに対するモデルの堅牢性は損なわれている。
本稿では,視覚言語事前学習モデルの言語モデリングを効果的に活用する,頑健な微調整アルゴリズムLipsum-FTを提案する。
論文 参考訳(メタデータ) (2024-04-01T02:01:33Z) - Building a Winning Team: Selecting Source Model Ensembles using a
Submodular Transferability Estimation Approach [20.86345962679122]
公開されている事前訓練されたモデルの目標タスクへの転送可能性の推定は、伝達学習タスクにとって重要な場所となっている。
本稿では, モデルアンサンブルの下流タスクへの転送可能性を評価するために, 最適なtranSportベースのsuBmOdular tRaNsferability Metrics(OSBORN)を提案する。
論文 参考訳(メタデータ) (2023-09-05T17:57:31Z) - SynBench: Task-Agnostic Benchmarking of Pretrained Representations using
Synthetic Data [78.21197488065177]
近年、下流のタスクで大規模なデータで事前訓練された微調整大型モデルが成功し、ディープラーニングにおける重要なパラダイムシフトにつながった。
本稿では,合成データを用いて事前学習した表現の質を測定するためのタスク非依存フレームワークであるtextitSynBenchを提案する。
論文 参考訳(メタデータ) (2022-10-06T15:25:00Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Predictive and Prescriptive Performance of Bike-Sharing Demand Forecasts
for Inventory Management [8.441020454345932]
本稿では,ポアソン繰り返しニューラルネットワークモデル(VP-RNN)を導入し,今後のピックアップとリターン率を予測する。
本稿は,米国ニューヨーク市からの実旅行データに対する従来の予測手法と学習に基づく予測手法の両方に対するアプローチを実証的に評価する。
論文 参考訳(メタデータ) (2021-07-28T14:11:34Z) - Model-Based Counterfactual Synthesizer for Interpretation [40.01787107375103]
機械学習モデルを解釈するためのモデルベース対実合成器(MCS)フレームワークを提案する。
まずモデルに基づく逆ファクト過程を分析し、条件付き生成逆数ネット(CGAN)を用いてベースシンセサイザーを構築する。
それらの希少なクエリに対する反ファクト宇宙をよりよく近似するために,MCSフレームワークのトレーニングを行うために,傘サンプリング手法を新たに採用した。
論文 参考訳(メタデータ) (2021-06-16T17:09:57Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。