Fugu-MT 論文翻訳(概要): Simultaneous or Sequential Training? How Speech Representations Cooperate in a Multi-Task Self-Supervised Learning System

論文の概要: Simultaneous or Sequential Training? How Speech Representations Cooperate in a Multi-Task Self-Supervised Learning System

arxiv url: http://arxiv.org/abs/2306.02972v1
Date: Mon, 5 Jun 2023 15:35:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-06 14:15:24.276466
Title: Simultaneous or Sequential Training? How Speech Representations Cooperate in a Multi-Task Self-Supervised Learning System
Title（参考訳）: 同時または連続の訓練? マルチタスク自己監督学習システムにおける音声表現の協調方法
Authors: Khazar Khorrami, Mar\'ia Andrea Cruz Bland\'on, Tuomas Virtanen, Okko R\"as\"anen
Abstract要約: 最近の研究は、表現学習のための自己教師付き学習(SSL)と視覚接地音声(VGS)処理機構を組み合わせたものである。マルチタスク学習システムとして,wav2vec 2.0ベースのSSLとトランスフォーマーベースのVGSの協調最適化について検討した。
参考スコア（独自算出の注目度）: 12.704529528199064
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Speech representation learning with self-supervised algorithms has resulted in notable performance boosts in many downstream tasks. Recent work combined self-supervised learning (SSL) and visually grounded speech (VGS) processing mechanisms for representation learning. The joint training with SSL and VGS mechanisms provides the opportunity to utilize both unlabeled speech and speech-related visual information based on data availability. This has shown to enhance the quality of learned representations, especially at encoding semantic- and lexical-level knowledge. In this work, we further study the joint optimization of wav2vec 2.0-based SSL and transformer-based VGS as a multi-task learning system. We explore a set of training scenarios to understand how speech representations are shared or transferred between the two tasks, and what is the optimal training strategy for cross-modal semantic retrieval and phoneme discrimination performance. As a result, we find that sequential training with wav2vec 2.0 first and VGS next provides higher performance on audio-visual retrieval compared to simultaneous optimization of both learning mechanisms. However, the parallel SSL-VGS training reduces the effects of catastrophic forgetting when switching between optimization criteria. Moreover, the results suggest that phonemic representations learned through the VGS mechanism may generalize better across datasets compared to those learned with SSL.
Abstract（参考訳）: 自己教師付きアルゴリズムによる音声表現学習は、多くの下流タスクで顕著なパフォーマンス向上をもたらした。最近の研究は、表現学習のための自己教師付き学習(SSL)と視覚接地音声(VGS)処理機構を組み合わせたものである。 SSLとVGSとの共同トレーニングは、データ可用性に基づいたラベルなし音声と音声関連視覚情報の両方を利用する機会を提供する。これは、特に意味論的および語彙的レベルの知識のエンコーディングにおいて、学習された表現の品質を高めることが示されている。本稿では,マルチタスク学習システムとして,wav2vec 2.0ベースのSSLとトランスフォーマーベースのVGSの協調最適化について検討する。本研究では,2つのタスク間での音声表現の共有や伝達の仕方と,モーダルな意味検索と音素識別性能の最適トレーニング戦略について検討する。その結果、wav2vec 2.0 と vgs next による逐次学習は、両学習機構の同時最適化と比較して、視聴覚検索において高いパフォーマンスを提供することがわかった。しかし、SSL-VGS並列トレーニングは、最適化基準を切り替える際の破滅的忘れの影響を低減する。さらに,vgs 機構で学習した音素表現は,ssl で学習した表現よりもデータセットをまたいでより一般化する可能性が示唆された。

関連論文リスト

CoGenAV: Versatile Audio-Visual Representation Learning via Contrastive-Generative Synchronization [16.372875825530787]
CoGenAVは、汎用的なオーディオ視覚表現を学習するために設計された、強力でデータ効率のよいモデルである。 CoGenAVは、自然な音声-視覚同期、対照的な特徴アライメント、生成テキスト予測から導かれる2つの目的を最適化することで訓練される。複数のベンチマークで学習したCoGenAV表現の有効性と汎用性を示す。
論文参考訳（メタデータ） (2025-05-06T05:07:11Z)
Underlying Semantic Diffusion for Effective and Efficient In-Context Learning [113.4003355229632]
Underlying Semantic Diffusion (US-Diffusion)は、セマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルである。本稿では,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。また,高雑音レベルの時間ステップで高密度サンプリングを行うためのプラグイン・アンド・プレイの効率的なサンプリング戦略(ESS)を提案する。
論文参考訳（メタデータ） (2025-03-06T03:06:22Z)
Stepping Stones: A Progressive Training Strategy for Audio-Visual Semantic Segmentation [7.124066540020968]
AVSS (Audio-Visual Semantic) は映像中の音源の画素レベルのローカライゼーションを実現することを目的としており、AVSS (Audio-Visual Semantic) は音声視覚シーンの意味的理解を追求している。従来の方法は、エンドツーエンドのトレーニングにおいて、このマッシュアップを扱うのに苦労しており、学習とサブ最適化が不十分である。 textitStepping Stonesと呼ばれる2段階のトレーニング戦略を提案し、AVSSタスクを2つの単純なサブタスクに分解する。
論文参考訳（メタデータ） (2024-07-16T15:08:30Z)
Sequential Contrastive Audio-Visual Learning [12.848371604063168]
逐次距離を用いた非集約表現空間に基づく実例を対比した逐次コントラスト音声視覚学習(SCAV)を提案する。 VGGSoundとMusicのデータセットによる検索実験は、SCAVの有効性を実証している。また、SCAVでトレーニングしたモデルは、検索に使用されるメトリックに関して高い柔軟性を示し、効率-精度トレードオフのスペクトル上で動作可能であることを示す。
論文参考訳（メタデータ） (2024-07-08T09:45:20Z)
Improved Baselines for Data-efficient Perceptual Augmentation of LLMs [66.05826802808177]
コンピュータビジョンでは、画像キャプションや視覚的質問応答などの視覚言語タスクに、大きな言語モデル(LLM)を用いることができる。複数のタスクにまたがる異なる対面機構を実験的に評価する。異なるタスク間で(ほぼ)最適な結果をもたらす新しいインターフェース機構を同定し、トレーニング時間を4倍短縮する。
論文参考訳（メタデータ） (2024-03-20T10:57:17Z)
Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and Context-Aware Visual Speech Processing [56.71450690166821]
LLM(VSP-LLM)を組み込んだビジュアル音声処理という新しいフレームワークを提案する。 VSP-LLMは、視覚音声認識と翻訳のマルチタスクを実行するように設計されている。ラベル付きデータのたった30時間で訓練されたVSP-LLMは、唇の動きをより効果的に翻訳できることを示す。
論文参考訳（メタデータ） (2024-02-23T07:21:32Z)
Improving Audio-Visual Speech Recognition by Lip-Subword Correlation Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文参考訳（メタデータ） (2023-08-14T08:19:24Z)
SLICER: Learning universal audio representations using low-resource self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文参考訳（メタデータ） (2022-11-02T23:45:33Z)
Deploying self-supervised learning in the wild for hybrid automatic speech recognition [20.03807843795386]
自己教師付き学習(SSL)法は自動音声認識(ASR)において非常に成功したことが証明されている。我々は、データ前処理からストリーミングハイブリッドASRモデルのデプロイまで、SSLの未転写オーディオデータを利用する方法を示す。
論文参考訳（メタデータ） (2022-05-17T19:37:40Z)
Learning Decoupling Features Through Orthogonality Regularization [55.79910376189138]
音声認識におけるキースポッティング(KWS)と話者検証(SV)は2つの重要なタスクである。我々は,同じネットワーク構造を持つ2分岐のディープネットワーク(KWSブランチとSVブランチ)を開発する。 KWS と SV のパフォーマンスを同時に向上させるために,新しいデカップリング特徴学習法を提案する。
論文参考訳（メタデータ） (2022-03-31T03:18:13Z)
SPLAT: Speech-Language Joint Pre-Training for Spoken Language Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文参考訳（メタデータ） (2020-10-05T19:29:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。