論文の概要: Sequence-to-sequence models in peer-to-peer learning: A practical application
- arxiv url: http://arxiv.org/abs/2406.02565v1
- Date: Thu, 2 May 2024 14:44:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-09 15:49:54.101495
- Title: Sequence-to-sequence models in peer-to-peer learning: A practical application
- Title(参考訳): ピアツーピア学習におけるシーケンス・ツー・シーケンスモデル--実践的応用
- Authors: Robert Šajina, Ivo Ipšić,
- Abstract要約: 本稿では,ピアツーピア学習環境における音声認識(ASR)タスクのLSTM単位に基づくシーケンス・ツー・シーケンス(Seq2Seq)モデルの適用性について検討する。
この結果は、分散環境でのSeq2Seqモデルの適用の可能性を示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper explores the applicability of sequence-to-sequence (Seq2Seq) models based on LSTM units for Automatic Speech Recognition (ASR) task within peer-to-peer learning environments. Leveraging two distinct peer-to-peer learning methods, the study simulates the learning process of agents and evaluates their performance in ASR task using two different ASR datasets. In a centralized training setting, utilizing a scaled-down variant of the Deep Speech 2 model, a single model achieved a Word Error Rate (WER) of 84\% when trained on the UserLibri dataset, and 38\% when trained on the LJ Speech dataset. Conversely, in a peer-to-peer learning scenario involving 55 agents, the WER ranged from 87\% to 92\% for the UserLibri dataset, and from 52\% to 56\% for the LJ Speech dataset. The findings demonstrate the feasibility of employing Seq2Seq models in decentralized settings, albeit with slightly higher Word Error Rates (WER) compared to centralized training methods.
- Abstract(参考訳): 本稿では,ピアツーピア学習環境における音声認識(ASR)タスクのLSTM単位に基づくシーケンス・ツー・シーケンス(Seq2Seq)モデルの適用性について検討する。
2つの異なるピアツーピア学習手法を活用することで、エージェントの学習プロセスをシミュレートし、2つの異なるASRデータセットを使用して、ASRタスクのパフォーマンスを評価する。
集中型トレーニング設定では、Deep Speech 2モデルのスケールダウン版を利用することで、UserLibriデータセットでトレーニングされた場合のワードエラー率(WER)が84倍、LJ Speechデータセットでトレーニングされた場合の38倍に達した。
逆に、55のエージェントを含むピアツーピアの学習シナリオでは、ユーザリベリデータセットでは87~92~%、LJスピーチデータセットでは52~56~%であった。
その結果, 集中学習法に比べて単語誤り率(WER)が若干高いにもかかわらず, 分散環境でのSeq2Seqモデルの適用可能性を示した。
関連論文リスト
- STTATTS: Unified Speech-To-Text And Text-To-Speech Model [6.327929516375736]
マルチタスク学習目標と共有パラメータを用いて, ASR と TTS を協調的に学習するためのパラメータ効率のよい手法を提案する。
評価の結果,マルチタスクモデルの性能は,個別に訓練したモデルに匹敵することがわかった。
論文 参考訳(メタデータ) (2024-10-24T10:04:24Z) - Efficient data selection employing Semantic Similarity-based Graph
Structures for model training [1.5845679507219355]
本稿では,SeSaME(Semantics for Data SAliency in Model Performance Estimation)を紹介する。
これはテキスト情報のみに基づく効率的なデータサンプリング機構であり、計算量の多いモデルにデータを渡すことなく利用できる。
このアプローチの適用例は、低リソース自動音声認識(ASR)モデルの使用例で示される。
論文 参考訳(メタデータ) (2024-02-22T09:43:53Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Data Curation Alone Can Stabilize In-context Learning [20.874674130060388]
In-context Learning (ICL) は、大規模な言語モデルに対して、一連のトレーニング例でそれらを促すことで、新しいタスクを実行することを可能にする。
トレーニングセットからランダムにサンプルをサンプリングすると、パフォーマンスのばらつきが高くなります。
トレーニングデータのサブセットを慎重にキュレートすることは、ICLアルゴリズムに他の変更を加えることなく、ICLのパフォーマンスを大幅に安定化させることを示す。
論文 参考訳(メタデータ) (2022-12-20T15:58:54Z) - Segment-level Metric Learning for Few-shot Bioacoustic Event Detection [56.59107110017436]
本稿では,モデル最適化時の肯定的事象と否定的事象の両方を利用するセグメントレベルの数ショット学習フレームワークを提案する。
本システムでは,DCASE2022チャレンジタスク5(DCASE2022-T5)のF値62.73の検証を行い,ベースラインプロトタイプネットワーク34.02の性能を大きなマージンで向上させる。
論文 参考訳(メタデータ) (2022-07-15T22:41:30Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - LiST: Lite Self-training Makes Efficient Few-shot Learners [91.28065455714018]
LiSTは古典的な微調整法よりも35%改善し、プロンプトチューニングよりも6%改善した。
論文 参考訳(メタデータ) (2021-10-12T18:47:18Z) - Environmental sound analysis with mixup based multitask learning and
cross-task fusion [0.12891210250935145]
音響シーン分類と音響イベント分類は 密接に関連している2つの課題です
本書では,上記の課題に対して二段階法を提案する。
提案手法は,音響シーンと音響イベント分類の相補的特徴を確認した。
論文 参考訳(メタデータ) (2021-03-30T05:11:53Z) - Generating Human Readable Transcript for Automatic Speech Recognition
with Pre-trained Language Model [18.26945997660616]
多くの下流のタスクと人間の読者は、ASRシステムの出力に依存しています。
本稿では,不正かつノイズの多いASR出力を可読テキストに変換することを目的としたASR後処理モデルを提案する。
論文 参考訳(メタデータ) (2021-02-22T15:45:50Z) - Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks [133.93803565077337]
検索強化生成モデルは、事前訓練されたパラメトリックメモリと非パラメトリックメモリを組み合わせて言語生成を行う。
我々は、RAGモデルが、最先端パラメトリックのみのセク2セックベースラインよりも、より具体的で、多様で、現実的な言語を生成することを示す。
論文 参考訳(メタデータ) (2020-05-22T21:34:34Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。