論文の概要: ESPnet-SPK: full pipeline speaker embedding toolkit with reproducible
recipes, self-supervised front-ends, and off-the-shelf models
- arxiv url: http://arxiv.org/abs/2401.17230v1
- Date: Tue, 30 Jan 2024 18:18:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 13:58:57.193210
- Title: ESPnet-SPK: full pipeline speaker embedding toolkit with reproducible
recipes, self-supervised front-ends, and off-the-shelf models
- Title(参考訳): ESPnet-SPK:再現可能なレシピ、自己教師型フロントエンド、オフザシェルフモデルを備えたフルパイプライン話者埋め込みツールキット
- Authors: Jee-weon Jung, Wangyou Zhang, Jiatong Shi, Zakaria Aldeneh, Takuya
Higuchi, Barry-John Theobald, Ahmed Hussen Abdelaziz, Shinji Watanabe
- Abstract要約: ESPnet-SPKは、話者埋め込み抽出器を訓練するためのツールキットである。
我々は、x-vectorから最近のSKA-TDNNまで、いくつかのモデルを提供している。
開発モデルと他のドメインとの橋渡しも目指しています。
- 参考スコア(独自算出の注目度): 53.56760820639671
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces ESPnet-SPK, a toolkit designed with several objectives
for training speaker embedding extractors. First, we provide an open-source
platform for researchers in the speaker recognition community to effortlessly
build models. We provide several models, ranging from x-vector to recent
SKA-TDNN. Through the modularized architecture design, variants can be
developed easily. We also aspire to bridge developed models with other domains,
facilitating the broad research community to effortlessly incorporate
state-of-the-art embedding extractors. Pre-trained embedding extractors can be
accessed in an off-the-shelf manner and we demonstrate the toolkit's
versatility by showcasing its integration with two tasks. Another goal is to
integrate with diverse self-supervised learning features. We release a
reproducible recipe that achieves an equal error rate of 0.39% on the Vox1-O
evaluation protocol using WavLM-Large with ECAPA-TDNN.
- Abstract(参考訳): 本稿では,話者埋め込み抽出器を訓練するためのツールキットであるESPnet-SPKを紹介する。
まず,音声認識コミュニティの研究者が無力にモデルを構築するためのオープンソースプラットフォームを提供する。
我々は、x-vectorから最近のSKA-TDNNまで、いくつかのモデルを提供している。
モジュール化されたアーキテクチャ設計により、変種は容易に開発できる。
また、開発モデルと他のドメインとの橋渡しも目指しており、幅広い研究コミュニティが最先端の埋め込み抽出器を積極的に組み込むことを容易にしています。
学習済みの埋め込み抽出器は既製の方法でアクセスでき,2つのタスクとの統合性を示すことでツールキットの汎用性を示す。
もうひとつの目標は、さまざまな自己監督型学習機能を統合することだ。
本稿では,ECAPA-TDNNを用いたWavLM-Largeを用いたVox1-O評価プロトコルにおいて,同じ誤差率で0.39%の再現可能なレシピをリリースする。
関連論文リスト
- VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models [89.63342806812413]
PyTorchに基づく大規模マルチモーダリティモデルを評価するためのオープンソースツールキットを提案する。
VLMEvalKitは70以上の大規模なマルチモダリティモデルを実装しており、プロプライエタリなAPIとオープンソースモデルの両方を含んでいる。
マルチモーダル学習研究の進展を追跡するために,OpenVLM Leaderboardを主催する。
論文 参考訳(メタデータ) (2024-07-16T13:06:15Z) - Arcee's MergeKit: A Toolkit for Merging Large Language Models [0.6374098147778188]
MergeKitは、任意のハードウェア上でモデルを効率的にマージするためのフレームワークである。
これまで、何千ものモデルがオープンソースコミュニティによってマージされてきた。
論文 参考訳(メタデータ) (2024-03-20T02:38:01Z) - AM-RADIO: Agglomerative Vision Foundation Model -- Reduce All Domains Into One [47.58919672657824]
このアプローチをAM-RADIO(Agglomerative Model -- すべてのドメインを1に還元する)と名付けます。
教師モデルより少なくとも7倍高速な新しいアーキテクチャ(E-RADIO)を開発した。
包括的なベンチマークプロセスでは、ImageNet分類、ADE20kセマンティックセグメンテーション、COCOオブジェクト検出、LLaVa-1.5フレームワークなどの下流タスクをカバーしています。
論文 参考訳(メタデータ) (2023-12-10T17:07:29Z) - Reformulating Vision-Language Foundation Models and Datasets Towards
Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。
UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文 参考訳(メタデータ) (2023-10-01T12:35:18Z) - Model Share AI: An Integrated Toolkit for Collaborative Machine Learning
Model Development, Provenance Tracking, and Deployment in Python [0.0]
モデル共有AI(AIMS)は、コラボレーティブモデル開発、モデル前駆者追跡、モデルデプロイメントを合理化するように設計された、使いやすいMLOpsプラットフォームである。
AIMSは、協調的なプロジェクト空間と、見当たらない評価データに基づいてモデル提出をランク付けする標準化されたモデル評価プロセスを備えている。
AIMSでは、Scikit-Learn、Keras、PyTorch、ONNXで構築されたMLモデルを、ライブREST APIや自動生成されたWebアプリにデプロイすることができる。
論文 参考訳(メタデータ) (2023-09-27T15:24:39Z) - All in One: Exploring Unified Vision-Language Tracking with Multi-Modal
Alignment [23.486297020327257]
現在の視覚言語追跡フレームワークは、視覚特徴抽出器、言語特徴抽出器、融合モデルという3つの部分から構成されている。
本稿では,一貫したトランスフォーマーバックボーンを採用することで,共同特徴抽出とインタラクションを学習するオールインワンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-07T03:51:21Z) - Learning with MISELBO: The Mixture Cookbook [62.75516608080322]
本稿では,VampPriorとPixelCNNデコーダネットワークを用いて,フローベース階層型変分オートエンコーダ(VAE)の正規化のための変分近似を初めて提案する。
我々は、この協調行動について、VIと適応的重要度サンプリングの新たな関係を描いて説明する。
我々は、MNISTおよびFashionMNISTデータセット上の負のログ類似度の観点から、VAEアーキテクチャの最先端結果を得る。
論文 参考訳(メタデータ) (2022-09-30T15:01:35Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。