論文の概要: Large-scale learning of generalised representations for speaker
recognition
- arxiv url: http://arxiv.org/abs/2210.10985v1
- Date: Thu, 20 Oct 2022 03:08:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 15:53:27.496932
- Title: Large-scale learning of generalised representations for speaker
recognition
- Title(参考訳): 話者認識のための一般化表現の大規模学習
- Authors: Jee-weon Jung, Hee-Soo Heo, Bong-Jin Lee, Jaesong Lee, Hye-jin Shim,
Youngki Kwon, Joon Son Chung, Shinji Watanabe
- Abstract要約: 多様なシナリオで使用される話者認識モデルを開発した。
いくつかの既存のデータセットを組み合わせた新しいトレーニングデータ構成について検討する。
帰納バイアスの少ない MFA-Conformer が最良を一般化する。
- 参考スコア(独自算出の注目度): 52.978310296712834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The objective of this work is to develop a speaker recognition model to be
used in diverse scenarios. We hypothesise that two components should be
adequately configured to build such a model. First, adequate architecture would
be required. We explore several recent state-of-the-art models, including
ECAPA-TDNN and MFA-Conformer, as well as other baselines. Second, a massive
amount of data would be required. We investigate several new training data
configurations combining a few existing datasets. The most extensive
configuration includes over 87k speakers' 10.22k hours of speech. Four
evaluation protocols are adopted to measure how the trained model performs in
diverse scenarios. Through experiments, we find that MFA-Conformer with the
least inductive bias generalises the best. We also show that training with
proposed large data configurations gives better performance. A boost in
generalisation is observed, where the average performance on four evaluation
protocols improves by more than 20%. In addition, we also demonstrate that
these models' performances can improve even further when increasing capacity.
- Abstract(参考訳): 本研究の目的は,多様なシナリオで使用される話者認識モデルを開発することである。
このようなモデルを構築するには、2つのコンポーネントを適切に設定する必要があると仮定する。
まず、適切なアーキテクチャが必要です。
ECAPA-TDNNやMFA-Conformerなど,最近の最先端モデルについても検討する。
第二に、大量のデータが必要になる。
既存のデータセットを結合した新しいトレーニングデータ構成について検討する。
最も広い構成は87k以上の話者の10.22k時間である。
さまざまなシナリオでトレーニングされたモデルがどのように振る舞うかを測定するために、4つの評価プロトコルが採用されている。
実験により、最小帰納バイアスの MFA-Conformer が最良を一般化することがわかった。
また,提案する大規模データ構成によるトレーニングにより,パフォーマンスが向上することを示す。
一般化の促進が観察され、4つの評価プロトコルの平均性能が20%以上向上した。
さらに,これらのモデルの性能が,キャパシティの増大に伴ってさらに向上することを示す。
関連論文リスト
- VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
我々は、幅広い下流タスクを扱える普遍的な埋め込みモデルを構築している。
1 MMEB(Massive Multimodal Embedding Benchmark)は、4 つのメタタスク(分類、視覚的質問応答、マルチモーダル検索、視覚的グラウンド)と36 つのデータセット(20 のトレーニングと16 の評価データセットを含む)と、2 の VLM2Vec (Vision-Language Model -> Vector) を含む。
論文 参考訳(メタデータ) (2024-10-07T16:14:05Z) - Dividable Configuration Performance Learning [4.949726352498762]
本稿では,DaLと呼ばれる構成性能を予測するためのモデルに依存しない,スパース性ロバストなフレームワークを提案する。
DaLは、"diide-and-learn"を使ってモデルを構築する、分割可能な学習の新しいパラダイムに基づいている。
論文 参考訳(メタデータ) (2024-09-11T21:23:23Z) - An Approach to Build Zero-Shot Slot-Filling System for Industry-Grade Conversational Assistants [9.537527104259153]
1) レイテンシの低い要件を満たし、利便性とコスト効率のよいクラウドおよび顧客の前提デプロイメントを実現するために、小さなモデルを使用する。
我々は,事前学習したLCMをタスク固有データを用いてスロット充足モデルに微調整する,微調整アプローチを採用する。
その結果, スロット充填モデル構築に対する我々の所定のアプローチは, F1の基準値よりも6.9%向上し, 同時に遅延を57%低減できた。
論文 参考訳(メタデータ) (2024-06-13T06:24:52Z) - AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models [92.92233932921741]
AV-SUPERBベンチマークは,音声・視覚・バイモーダル融合表現の汎用的評価を可能にする。
我々は,最近の5つの自己教師型モデルを評価し,これらのモデルがすべてのタスクに一般化されないことを示す。
我々は,AudioSetを用いた中間タスクの微調整と音声イベント分類によって表現が改善されることを実証した。
論文 参考訳(メタデータ) (2023-09-19T17:35:16Z) - What Matters in Training a GPT4-Style Language Model with Multimodal
Inputs? [24.676820488258336]
大規模言語モデル(LLM)は、与えられた画像のオープンエンド命令に従う際、例外的なマルチモーダル機能を示す。
これらのモデルは、ネットワーク構造、トレーニングデータ、トレーニング戦略などの設計選択に依存している。
本稿では,そのようなモデルの訓練について,定量的かつ質的に,体系的かつ包括的に研究する。
論文 参考訳(メタデータ) (2023-07-05T17:44:28Z) - InstructBLIP: Towards General-purpose Vision-Language Models with
Instruction Tuning [43.54069813039309]
我々は、事前訓練されたBLIP-2モデルに基づいて、視覚言語による指導のチューニングについて研究する。
InstructBLIPは、13のホールトアウトデータセットすべてにわたって、最先端のゼロショットパフォーマンスを実現する。
私たちのモデルは、個々の下流タスクに微調整された場合、最先端のパフォーマンスももたらします。
論文 参考訳(メタデータ) (2023-05-11T00:38:10Z) - Multitask Learning for Low Resource Spoken Language Understanding [26.106133114838215]
我々は、自動音声認識と意図分類、感情分類を用いて、二重目的のモデルを訓練する。
我々のモデルは、控えめなサイズではあるが、意図の分類に基づいて訓練されたモデルよりも改善されている。
本研究では,低リソースシナリオにおけるモデルの性能を,クラス毎に1つの例でトレーニングすることで検討する。
論文 参考訳(メタデータ) (2022-11-24T16:38:17Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - Feeding What You Need by Understanding What You Learned [54.400455868448695]
Machine Reading (MRC)は、与えられたテキストパスを理解し、それに基づいて質問に答える機能を明らかにする。
MRCの既存の研究は、Exact Matchのようなメトリクスによって評価されたパフォーマンスを改善するために、大規模なモデルとコーパスに大きく依存している。
モデル機能とデータ特性の深い理解は、適切なトレーニングデータでモデルをフィードするのに役立ちます。
論文 参考訳(メタデータ) (2022-03-05T14:15:59Z) - Visual Speech Recognition for Multiple Languages in the Wild [64.52593130370757]
より優れたVSRモデルを設計することが、より大きなトレーニングセットを使用する上でも同様に重要であることを示す。
VSRモデルに予測に基づく補助タスクを追加することを提案する。
このようなモデルは、異なる言語で動作し、公開データセット上でトレーニングされたこれまでのすべてのメソッドを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2022-02-26T07:21:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。