Fugu-MT 論文翻訳(概要): JOOCI: a Framework for Learning Comprehensive Speech Representations

論文の概要: JOOCI: a Framework for Learning Comprehensive Speech Representations

arxiv url: http://arxiv.org/abs/2410.11086v1
Date: Mon, 14 Oct 2024 20:59:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:35.490251
Title: JOOCI: a Framework for Learning Comprehensive Speech Representations
Title（参考訳）: JOOCI: 包括的音声表現学習フレームワーク
Authors: Hemant Yadav, Rajiv Ratn Shah, Sunayana Sitaram,
Abstract要約: 音声中の他の情報とコンテンツ情報を協調的に最適化するエンドツーエンドの音声表現学習フレームワークを提案する。以上の結果から,JOOCIは類似サイズのSOTAモデルよりも一貫して優れていることがわかった。
参考スコア（独自算出の注目度）: 43.479279052047985
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Information in speech can be divided into two categories: what is being said (content) and how it is expressed (other). Current state-of-the-art (SOTA) techniques model speech at fixed segments, usually 10-25 ms, using a single embedding. Given the orthogonal nature of other and content information, attempting to optimize both within a single embedding results in suboptimal solutions. This approach divides the models capacity, limiting its ability to build complex hierarchical features effectively. In this work, we present an end-to-end speech representation learning framework designed to jointly optimize the other and content information (JOOCI) in speech. By using separate learnable parameters, JOOCI addresses this optimization challenge by modeling other and content information independently. Our results show that JOOCI consistently outperforms other SOTA models of similar size (100 million parameters) and pre-training data used (960 hours) by a significant margin when evaluated on a range of speech downstream tasks in the SUPERB benchmark, as shown in Table 1.
Abstract（参考訳）: 音声の情報は、何を言っているか(コンテンツ)とどのように表現されているか(他のもの)の2つのカテゴリに分けられる。現在の最先端技術(SOTA)技術は、単一の埋め込みを用いて、固定セグメント(通常は10-25ms)で音声をモデル化する。他の情報とコンテンツ情報の直交性を考えると、単一の埋め込み内で両方の最適化を試みれば、最適でない解が得られる。このアプローチはモデルのキャパシティを分割し、複雑な階層的な機能を効果的に構築する能力を制限する。本研究では,他言語とコンテンツ情報(JOOCI)を協調的に最適化するエンドツーエンドの音声表現学習フレームワークを提案する。学習可能なパラメータを別々に使用することにより、JOOCIは、他の情報とコンテンツ情報を独立してモデリングすることで、この最適化課題に対処する。 JOOCIは、表1に示すように、SUPERBベンチマークの音声ダウンストリームタスクの範囲で評価すると、同じ大きさ(1億のパラメータ)のSOTAモデルと使用済みの事前学習データ(960時間)の差を著しく上回っている。

関連論文リスト

Speech Representation Learning Revisited: The Necessity of Separate Learnable Parameters and Robust Data Augmentation [43.479279052047985]
我々は、学習可能なパラメータを別々に使用して、他の情報をモデリングすることの重要性を理解するための予備的研究を行う。まず、O-HuBERT法は、すべてのレイヤを利用して、他の情報をエンコードする複雑な機能を構築することができ、次に、他の情報に依存するタスクに必要な情報を学ぶために、堅牢なデータ拡張戦略が不可欠である。
論文参考訳（メタデータ） (2024-08-20T05:45:04Z)
What Do Self-Supervised Speech and Speaker Models Learn? New Findings From a Cross Model Layer-Wise Analysis [44.93152068353389]
自己教師付き学習(SSL)は、意味のある音声表現を学習するために注目を集めている。話者SSLモデルは、主に話者表現のための発話レベルの訓練目標を採用する。
論文参考訳（メタデータ） (2024-01-31T07:23:22Z)
OMG-Seg: Is One Model Good Enough For All Segmentation? [83.17068644513144]
OMG-Segは、タスク固有のクエリと出力を持つトランスフォーマーベースのエンコーダデコーダアーキテクチャである。 OMG-Segは10以上の異なるセグメンテーションタスクをサポートできるが、計算とパラメータのオーバーヘッドを大幅に削減できることを示す。
論文参考訳（メタデータ） (2024-01-18T18:59:34Z)
SSHR: Leveraging Self-supervised Hierarchical Representations for Multilingual Automatic Speech Recognition [9.853451215277346]
自己教師付き階層表現(SSHR)を利用してMMSモデルを微調整する新しい手法を提案する。我々は,2つの多言語データセットであるCommon VoiceとML-SUPERBについてSSHRを評価し,その実験結果から,本手法が最先端の性能を実現することを示す。
論文参考訳（メタデータ） (2023-09-29T02:35:36Z)
Learning Speech Representation From Contrastive Token-Acoustic Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文参考訳（メタデータ） (2023-09-01T12:35:43Z)
Representation Learning With Hidden Unit Clustering For Low Resource Speech Applications [37.89857769906568]
本稿では,隠れ単位クラスタリング(HUC)フレームワークを用いた生音声からの自己教師付き表現学習のアプローチについて述べる。モデルへの入力は、ウィンドウ化され、1次元畳み込み層で処理されるオーディオサンプルで構成されている。 HUCフレームワークは、表現を少数の音素のような単位に分類することができ、意味的に豊かな表現を学ぶためのモデルを訓練するために使用される。
論文参考訳（メタデータ） (2023-07-14T13:02:10Z)
Automatic Model Selection with Large Language Models for Reasoning [33.93807127935167]
Chain-of-Thought (CoT) と Program-Aided Language Models (PAL) は2つの異なる推論方法を表す。本稿では,大言語モデルを用いて両世界の長所を結合するモデル選択手法を提案する。提案手法は,8つの推論データセット間で有意な性能向上を示す。
論文参考訳（メタデータ） (2023-05-23T17:57:59Z)
Compositional Exemplars for In-context Learning [21.961094715261133]
大規模な事前学習言語モデル(LM)は、印象的なインコンテキスト学習(ICL)能力を示している。本稿では,CEIL (Compositional Exemplars for In-context Learning) を提案する。我々は、感情分析、パラフレーズ検出、自然言語推論、コモンセンス推論、オープンドメイン質問応答、コード生成、意味解析を含む7つの異なるNLPタスクから、CEILを12の分類および生成データセットで検証する。
論文参考訳（メタデータ） (2023-02-11T14:02:08Z)
InfoCSE: Information-aggregated Contrastive Learning of Sentence Embeddings [61.77760317554826]
本稿では,教師なし文の埋め込みを学習するための情報型コントラスト学習フレームワーク InfoCSE を提案する。提案したInfoCSEを,セマンティックテキスト類似性(STS)タスクを用いて,いくつかのベンチマークデータセット上で評価する。実験の結果, InfoCSE は BERT ベースでは2.60%, BERT 大規模では1.77% でSimCSE より優れていた。
論文参考訳（メタデータ） (2022-10-08T15:53:19Z)
Self-Supervised Learning for speech recognition with Intermediate layer supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。 ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。 LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文参考訳（メタデータ） (2021-12-16T10:45:05Z)
On the Use of External Data for Spoken Named Entity Recognition [40.93448412171246]
近年の自己教師型音声表現の進歩により,ラベル付きデータに制限のある学習モデルを考えることが可能になった。自己学習、知識蒸留、トランスファーラーニングなど、さまざまなアプローチを採用し、エンドツーエンドモデルとパイプラインアプローチの両方に適用性を検討する。
論文参考訳（メタデータ） (2021-12-14T18:49:26Z)
UniSpeech-SAT: Universal Speech Representation Learning with Speaker Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。 SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文参考訳（メタデータ） (2021-10-12T05:43:30Z)
SUPERB: Speech processing Universal PERformance Benchmark [78.41287216481203]
自然言語処理(NLP)とコンピュータビジョン(CV)の研究を進める上で、SSL(Self-supervised Learning)は不可欠です。 SuperBは、幅広い音声処理タスクで共有モデルのパフォーマンスをベンチマークするためのリーダーボードです。凍結共有モデル上にタスク特化軽量予測ヘッドを学習することで、SUPERBタスクを解決するためのシンプルなフレームワークを提案する。
論文参考訳（メタデータ） (2021-05-03T17:51:09Z)
Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文参考訳（メタデータ） (2020-10-18T00:21:53Z)
SPLAT: Speech-Language Joint Pre-Training for Spoken Language Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文参考訳（メタデータ） (2020-10-05T19:29:49Z)
A Data Efficient End-To-End Spoken Language Understanding Architecture [22.823732899634518]
我々は、事前訓練された外部モジュールを追加せずに、エンドツーエンドで訓練されたデータ効率システムを導入する。提案モデルでは,小規模なトレーニングデータセットを用いて,最先端技術に対して,適切なサイズと競争力のある結果が得られる。
論文参考訳（メタデータ） (2020-02-14T10:24:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。