論文の概要: ESPnet-SPK: full pipeline speaker embedding toolkit with reproducible
recipes, self-supervised front-ends, and off-the-shelf models
- arxiv url: http://arxiv.org/abs/2401.17230v1
- Date: Tue, 30 Jan 2024 18:18:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 13:58:57.193210
- Title: ESPnet-SPK: full pipeline speaker embedding toolkit with reproducible
recipes, self-supervised front-ends, and off-the-shelf models
- Title(参考訳): ESPnet-SPK:再現可能なレシピ、自己教師型フロントエンド、オフザシェルフモデルを備えたフルパイプライン話者埋め込みツールキット
- Authors: Jee-weon Jung, Wangyou Zhang, Jiatong Shi, Zakaria Aldeneh, Takuya
Higuchi, Barry-John Theobald, Ahmed Hussen Abdelaziz, Shinji Watanabe
- Abstract要約: ESPnet-SPKは、話者埋め込み抽出器を訓練するためのツールキットである。
我々は、x-vectorから最近のSKA-TDNNまで、いくつかのモデルを提供している。
開発モデルと他のドメインとの橋渡しも目指しています。
- 参考スコア(独自算出の注目度): 53.56760820639671
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces ESPnet-SPK, a toolkit designed with several objectives
for training speaker embedding extractors. First, we provide an open-source
platform for researchers in the speaker recognition community to effortlessly
build models. We provide several models, ranging from x-vector to recent
SKA-TDNN. Through the modularized architecture design, variants can be
developed easily. We also aspire to bridge developed models with other domains,
facilitating the broad research community to effortlessly incorporate
state-of-the-art embedding extractors. Pre-trained embedding extractors can be
accessed in an off-the-shelf manner and we demonstrate the toolkit's
versatility by showcasing its integration with two tasks. Another goal is to
integrate with diverse self-supervised learning features. We release a
reproducible recipe that achieves an equal error rate of 0.39% on the Vox1-O
evaluation protocol using WavLM-Large with ECAPA-TDNN.
- Abstract(参考訳): 本稿では,話者埋め込み抽出器を訓練するためのツールキットであるESPnet-SPKを紹介する。
まず,音声認識コミュニティの研究者が無力にモデルを構築するためのオープンソースプラットフォームを提供する。
我々は、x-vectorから最近のSKA-TDNNまで、いくつかのモデルを提供している。
モジュール化されたアーキテクチャ設計により、変種は容易に開発できる。
また、開発モデルと他のドメインとの橋渡しも目指しており、幅広い研究コミュニティが最先端の埋め込み抽出器を積極的に組み込むことを容易にしています。
学習済みの埋め込み抽出器は既製の方法でアクセスでき,2つのタスクとの統合性を示すことでツールキットの汎用性を示す。
もうひとつの目標は、さまざまな自己監督型学習機能を統合することだ。
本稿では,ECAPA-TDNNを用いたWavLM-Largeを用いたVox1-O評価プロトコルにおいて,同じ誤差率で0.39%の再現可能なレシピをリリースする。
関連論文リスト
- OmniEvalKit: A Modular, Lightweight Toolbox for Evaluating Large Language Model and its Omni-Extensions [58.46747176834132]
我々は,Large Language Models (LLMs) を評価するために設計された,新しいベンチマークツールボックスであるOmniEvalKitを紹介する。
単一の側面にフォーカスする既存のベンチマークとは異なり、OmniEvalKitはモジュール化され、軽量で、自動評価システムを提供する。
Static BuilderとDynamic Data Flowで構成されるモジュールアーキテクチャで構成されており、新しいモデルとデータセットのシームレスな統合を促進する。
論文 参考訳(メタデータ) (2024-12-09T17:39:43Z) - VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
幅広い下流タスクを扱える普遍的な埋め込みを構築する可能性について検討する。
We build a series of VLM2Vec model on SoTA VLMs like Phi-3.5-V, LLaVA-1.6 and evaluate them on MMEB's evaluation split。
以上の結果から,VLM2Vecは既存のマルチモーダル埋め込みモデルよりも10%から20%の絶対的な平均的改善を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-07T16:14:05Z) - VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models [89.63342806812413]
PyTorchに基づく大規模マルチモーダリティモデルを評価するためのオープンソースツールキットを提案する。
VLMEvalKitは70以上の大規模なマルチモダリティモデルを実装しており、プロプライエタリなAPIとオープンソースモデルの両方を含んでいる。
マルチモーダル学習研究の進展を追跡するために,OpenVLM Leaderboardを主催する。
論文 参考訳(メタデータ) (2024-07-16T13:06:15Z) - Arcee's MergeKit: A Toolkit for Merging Large Language Models [0.6374098147778188]
MergeKitは、任意のハードウェア上でモデルを効率的にマージするためのフレームワークである。
これまで、何千ものモデルがオープンソースコミュニティによってマージされてきた。
論文 参考訳(メタデータ) (2024-03-20T02:38:01Z) - AM-RADIO: Agglomerative Vision Foundation Model -- Reduce All Domains Into One [47.58919672657824]
このアプローチをAM-RADIO(Agglomerative Model -- すべてのドメインを1に還元する)と名付けます。
教師モデルより少なくとも7倍高速な新しいアーキテクチャ(E-RADIO)を開発した。
包括的なベンチマークプロセスでは、ImageNet分類、ADE20kセマンティックセグメンテーション、COCOオブジェクト検出、LLaVa-1.5フレームワークなどの下流タスクをカバーしています。
論文 参考訳(メタデータ) (2023-12-10T17:07:29Z) - Model Share AI: An Integrated Toolkit for Collaborative Machine Learning
Model Development, Provenance Tracking, and Deployment in Python [0.0]
モデル共有AI(AIMS)は、コラボレーティブモデル開発、モデル前駆者追跡、モデルデプロイメントを合理化するように設計された、使いやすいMLOpsプラットフォームである。
AIMSは、協調的なプロジェクト空間と、見当たらない評価データに基づいてモデル提出をランク付けする標準化されたモデル評価プロセスを備えている。
AIMSでは、Scikit-Learn、Keras、PyTorch、ONNXで構築されたMLモデルを、ライブREST APIや自動生成されたWebアプリにデプロイすることができる。
論文 参考訳(メタデータ) (2023-09-27T15:24:39Z) - All in One: Exploring Unified Vision-Language Tracking with Multi-Modal
Alignment [23.486297020327257]
現在の視覚言語追跡フレームワークは、視覚特徴抽出器、言語特徴抽出器、融合モデルという3つの部分から構成されている。
本稿では,一貫したトランスフォーマーバックボーンを採用することで,共同特徴抽出とインタラクションを学習するオールインワンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-07T03:51:21Z) - Learning with MISELBO: The Mixture Cookbook [62.75516608080322]
本稿では,VampPriorとPixelCNNデコーダネットワークを用いて,フローベース階層型変分オートエンコーダ(VAE)の正規化のための変分近似を初めて提案する。
我々は、この協調行動について、VIと適応的重要度サンプリングの新たな関係を描いて説明する。
我々は、MNISTおよびFashionMNISTデータセット上の負のログ類似度の観点から、VAEアーキテクチャの最先端結果を得る。
論文 参考訳(メタデータ) (2022-09-30T15:01:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。