Fugu-MT 論文翻訳(概要): ESPnet-SPK: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models

論文の概要: ESPnet-SPK: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models

arxiv url: http://arxiv.org/abs/2401.17230v1
Date: Tue, 30 Jan 2024 18:18:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-31 13:58:57.193210
Title: ESPnet-SPK: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models
Title（参考訳）: ESPnet-SPK:再現可能なレシピ、自己教師型フロントエンド、オフザシェルフモデルを備えたフルパイプライン話者埋め込みツールキット
Authors: Jee-weon Jung, Wangyou Zhang, Jiatong Shi, Zakaria Aldeneh, Takuya Higuchi, Barry-John Theobald, Ahmed Hussen Abdelaziz, Shinji Watanabe
Abstract要約: ESPnet-SPKは、話者埋め込み抽出器を訓練するためのツールキットである。我々は、x-vectorから最近のSKA-TDNNまで、いくつかのモデルを提供している。開発モデルと他のドメインとの橋渡しも目指しています。
参考スコア（独自算出の注目度）: 53.56760820639671
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper introduces ESPnet-SPK, a toolkit designed with several objectives for training speaker embedding extractors. First, we provide an open-source platform for researchers in the speaker recognition community to effortlessly build models. We provide several models, ranging from x-vector to recent SKA-TDNN. Through the modularized architecture design, variants can be developed easily. We also aspire to bridge developed models with other domains, facilitating the broad research community to effortlessly incorporate state-of-the-art embedding extractors. Pre-trained embedding extractors can be accessed in an off-the-shelf manner and we demonstrate the toolkit's versatility by showcasing its integration with two tasks. Another goal is to integrate with diverse self-supervised learning features. We release a reproducible recipe that achieves an equal error rate of 0.39% on the Vox1-O evaluation protocol using WavLM-Large with ECAPA-TDNN.
Abstract（参考訳）: 本稿では,話者埋め込み抽出器を訓練するためのツールキットであるESPnet-SPKを紹介する。まず,音声認識コミュニティの研究者が無力にモデルを構築するためのオープンソースプラットフォームを提供する。我々は、x-vectorから最近のSKA-TDNNまで、いくつかのモデルを提供している。モジュール化されたアーキテクチャ設計により、変種は容易に開発できる。また、開発モデルと他のドメインとの橋渡しも目指しており、幅広い研究コミュニティが最先端の埋め込み抽出器を積極的に組み込むことを容易にしています。学習済みの埋め込み抽出器は既製の方法でアクセスでき,2つのタスクとの統合性を示すことでツールキットの汎用性を示す。もうひとつの目標は、さまざまな自己監督型学習機能を統合することだ。本稿では,ECAPA-TDNNを用いたWavLM-Largeを用いたVox1-O評価プロトコルにおいて,同じ誤差率で0.39%の再現可能なレシピをリリースする。

関連論文リスト

Tevatron 2.0: Unified Document Retrieval Toolkit across Scale, Language, and Modality [74.59049806800176]
このデモペーパーでは、Tevatronツールキットの重要な特徴、学界と産業の橋渡しについて取り上げている。強い多言語・多モーダルな有効性を実現するための密集型検索器について紹介する。私たちはOmniEmbedもリリースしています。私たちの知る限り、テキスト、画像ドキュメント、ビデオ、オーディオ検索を統一する最初の埋め込みモデルです。
論文参考訳（メタデータ） (2025-05-05T08:52:49Z)
OmniEvalKit: A Modular, Lightweight Toolbox for Evaluating Large Language Model and its Omni-Extensions [58.46747176834132]
我々は,Large Language Models (LLMs) を評価するために設計された,新しいベンチマークツールボックスであるOmniEvalKitを紹介する。単一の側面にフォーカスする既存のベンチマークとは異なり、OmniEvalKitはモジュール化され、軽量で、自動評価システムを提供する。 Static BuilderとDynamic Data Flowで構成されるモジュールアーキテクチャで構成されており、新しいモデルとデータセットのシームレスな統合を促進する。
論文参考訳（メタデータ） (2024-12-09T17:39:43Z)
VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
幅広い下流タスクを扱える普遍的な埋め込みを構築する可能性について検討する。 We build a series of VLM2Vec model on SoTA VLMs like Phi-3.5-V, LLaVA-1.6 and evaluate them on MMEB's evaluation split。以上の結果から,VLM2Vecは既存のマルチモーダル埋め込みモデルよりも10%から20%の絶対的な平均的改善を実現していることがわかった。
論文参考訳（メタデータ） (2024-10-07T16:14:05Z)
VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models [89.63342806812413]
PyTorchに基づく大規模マルチモーダリティモデルを評価するためのオープンソースツールキットを提案する。 VLMEvalKitは70以上の大規模なマルチモダリティモデルを実装しており、プロプライエタリなAPIとオープンソースモデルの両方を含んでいる。マルチモーダル学習研究の進展を追跡するために,OpenVLM Leaderboardを主催する。
論文参考訳（メタデータ） (2024-07-16T13:06:15Z)
Arcee's MergeKit: A Toolkit for Merging Large Language Models [0.6374098147778188]
MergeKitは、任意のハードウェア上でモデルを効率的にマージするためのフレームワークである。これまで、何千ものモデルがオープンソースコミュニティによってマージされてきた。
論文参考訳（メタデータ） (2024-03-20T02:38:01Z)
AM-RADIO: Agglomerative Vision Foundation Model -- Reduce All Domains Into One [47.58919672657824]
このアプローチをAM-RADIO(Agglomerative Model -- すべてのドメインを1に還元する)と名付けます。教師モデルより少なくとも7倍高速な新しいアーキテクチャ(E-RADIO)を開発した。包括的なベンチマークプロセスでは、ImageNet分類、ADE20kセマンティックセグメンテーション、COCOオブジェクト検出、LLaVa-1.5フレームワークなどの下流タスクをカバーしています。
論文参考訳（メタデータ） (2023-12-10T17:07:29Z)
Reformulating Vision-Language Foundation Models and Datasets Towards Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。 UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文参考訳（メタデータ） (2023-10-01T12:35:18Z)
Model Share AI: An Integrated Toolkit for Collaborative Machine Learning Model Development, Provenance Tracking, and Deployment in Python [0.0]
モデル共有AI(AIMS)は、コラボレーティブモデル開発、モデル前駆者追跡、モデルデプロイメントを合理化するように設計された、使いやすいMLOpsプラットフォームである。 AIMSは、協調的なプロジェクト空間と、見当たらない評価データに基づいてモデル提出をランク付けする標準化されたモデル評価プロセスを備えている。 AIMSでは、Scikit-Learn、Keras、PyTorch、ONNXで構築されたMLモデルを、ライブREST APIや自動生成されたWebアプリにデプロイすることができる。
論文参考訳（メタデータ） (2023-09-27T15:24:39Z)
All in One: Exploring Unified Vision-Language Tracking with Multi-Modal Alignment [23.486297020327257]
現在の視覚言語追跡フレームワークは、視覚特徴抽出器、言語特徴抽出器、融合モデルという3つの部分から構成されている。本稿では,一貫したトランスフォーマーバックボーンを採用することで,共同特徴抽出とインタラクションを学習するオールインワンフレームワークを提案する。
論文参考訳（メタデータ） (2023-07-07T03:51:21Z)
Learning with MISELBO: The Mixture Cookbook [62.75516608080322]
本稿では,VampPriorとPixelCNNデコーダネットワークを用いて,フローベース階層型変分オートエンコーダ(VAE)の正規化のための変分近似を初めて提案する。我々は、この協調行動について、VIと適応的重要度サンプリングの新たな関係を描いて説明する。我々は、MNISTおよびFashionMNISTデータセット上の負のログ類似度の観点から、VAEアーキテクチャの最先端結果を得る。
論文参考訳（メタデータ） (2022-09-30T15:01:35Z)
Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文参考訳（メタデータ） (2020-12-29T23:43:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。