論文の概要: Big model only for hard audios: Sample dependent Whisper model selection
for efficient inferences
- arxiv url: http://arxiv.org/abs/2309.12712v1
- Date: Fri, 22 Sep 2023 08:50:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-25 15:21:09.628957
- Title: Big model only for hard audios: Sample dependent Whisper model selection
for efficient inferences
- Title(参考訳): ハードオーディオのみのビッグモデル:効率的な推論のためのサンプル依存ウィスパーモデル選択
- Authors: Hugo Malard, Salah Zaiem, Robin Algayres
- Abstract要約: いくつかのASRモデルが様々なサイズに存在するが、推論コストが異なるため、性能レベルが異なる。
我々は、オーディオサンプルが与えられた場合、十分な最小のモデルを使用することで、良好な書き起こしにつながる決定モジュールを訓練することを提案する。
決定プロセスの計算効率を保ちながら,性能低下を低減し,計算コストを大幅に削減できる決定モジュールを構築した。
- 参考スコア(独自算出の注目度): 7.592727209806414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in Automatic Speech Recognition (ASR) has been coupled with a
substantial increase in the model sizes, which may now contain billions of
parameters, leading to slow inferences even with adapted hardware. In this
context, several ASR models exist in various sizes, with different inference
costs leading to different performance levels. Based on the observation that
smaller models perform optimally on large parts of testing corpora, we propose
to train a decision module, that would allow, given an audio sample, to use the
smallest sufficient model leading to a good transcription. We apply our
approach to two Whisper models with different sizes. By keeping the decision
process computationally efficient, we build a decision module that allows
substantial computational savings with reduced performance drops.
- Abstract(参考訳): 近年のASR(Automatic Speech Recognition)の進歩は,数十億のパラメータを含むモデルサイズの増加と相まって,適応ハードウェアにおいても推論が遅くなっている。
この文脈では、様々なサイズのASRモデルが存在し、異なる推論コストが異なるパフォーマンスレベルにつながる。
実験コーパスの大部分で小さなモデルが最適に動作するという観測に基づいて,オーディオサンプルが与えられた場合,十分な最小のモデルを用いて良好な書き起こしを行うための決定モジュールを訓練することを提案する。
サイズが異なる2つのWhisperモデルにアプローチを適用する。
決定プロセスの計算効率を保ちながら,性能低下を低減し,計算コストを大幅に削減できる決定モジュールを構築した。
関連論文リスト
- Dynamic Subset Tuning: Expanding the Operational Range of Parameter-Efficient Training for Large Language Models [14.762222323897978]
大規模言語モデルのための新しいパラメータ効率訓練法を提案する。
従来の方法とは異なり、このサブセットはロケーションで固定されるのではなく、トレーニングの過程でどのパラメータが修正されるかである。
本手法により, モデル全体の任意の割合で, サブセットサイズをシームレスにスケーリングすることができる。
論文 参考訳(メタデータ) (2024-11-13T13:53:10Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - AutoMix: Automatically Mixing Language Models [62.51238143437967]
大規模言語モデル(LLM)は、さまざまなサイズと構成のクラウドAPIプロバイダから利用可能になった。
より小さなLMからの出力の近似精度に基づいて,クエリを大規模LMに戦略的にルーティングする手法であるAutomixを提案する。
論文 参考訳(メタデータ) (2023-10-19T17:57:39Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Sharing Low Rank Conformer Weights for Tiny Always-On Ambient Speech
Recognition Models [47.99478573698432]
コンフォーマーに基づく音声認識モデルのモデルサイズを削減する手法を検討する。
このようなモデルにより、低メモリのニューラルプロセッサを持つエッジデバイス上で、常時オンの環境音声認識を実現することができる。
論文 参考訳(メタデータ) (2023-03-15T03:21:38Z) - Who Says Elephants Can't Run: Bringing Large Scale MoE Models into Cloud
Scale Production [7.056223012587321]
本稿では,スパースモデルの計算を高速化するために,いくつかの最適化手法を用いた高効率推論フレームワークを提案する。
既存のソリューションに比べて,コストが27%削減され,品質が大幅に向上した136倍のモデルをデプロイすることが可能です。
論文 参考訳(メタデータ) (2022-11-18T03:43:52Z) - Model ensemble instead of prompt fusion: a sample-specific knowledge
transfer method for few-shot prompt tuning [85.55727213502402]
我々は、ソースタスクのソフトプロンプトから知識を伝達することで、プロンプトチューニングにおける数ショットのパフォーマンスを改善することに集中する。
我々はソースモデル(SESoM)のサンプル固有アンサンブルを提案する。
SESoMは、ソースモデルが出力されるときに、ターゲットの各サンプルに対するソースモデルのコントリビューションを個別に調整することを学ぶ。
論文 参考訳(メタデータ) (2022-10-23T01:33:16Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Efficient End-to-End Speech Recognition Using Performers in Conformers [74.71219757585841]
モデルサイズに加えて,モデルアーキテクチャの複雑さを低減することを提案する。
提案モデルにより,1000万のパラメータと線形複雑度を持つLibriSpeechコーパス上での競合性能が得られた。
論文 参考訳(メタデータ) (2020-11-09T05:22:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。