論文の概要: Unsupervised Improvement of Audio-Text Cross-Modal Representations
- arxiv url: http://arxiv.org/abs/2305.01864v3
- Date: Mon, 31 Jul 2023 18:28:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 22:08:20.474349
- Title: Unsupervised Improvement of Audio-Text Cross-Modal Representations
- Title(参考訳): 音声テキストクロスモーダル表現の教師なし改善
- Authors: Zhepei Wang, Cem Subakan, Krishna Subramani, Junkai Wu, Tiago Tavares,
Fabio Ayres, Paris Smaragdis
- Abstract要約: 本研究では、教師なしのテキストと音声を用いて、そのような表現の学習フレームワークを改善するための教師なしのアプローチについて研究する。
ドメイン固有のキュレーションをソフトラベル付きコントラスト損失と併用することで、ゼロショット分類性能において大幅な改善が得られることを示す。
- 参考スコア(独自算出の注目度): 19.960695758478153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in using language models to obtain cross-modal audio-text
representations have overcome the limitations of conventional training
approaches that use predefined labels. This has allowed the community to make
progress in tasks like zero-shot classification, which would otherwise not be
possible. However, learning such representations requires a large amount of
human-annotated audio-text pairs. In this paper, we study unsupervised
approaches to improve the learning framework of such representations with
unpaired text and audio. We explore domain-unspecific and domain-specific
curation methods to create audio-text pairs that we use to further improve the
model. We also show that when domain-specific curation is used in conjunction
with a soft-labeled contrastive loss, we are able to obtain significant
improvement in terms of zero-shot classification performance on downstream
sound event classification or acoustic scene classification tasks.
- Abstract(参考訳): 言語モデルを用いてモーダルな音声テキスト表現を得る手法の進歩は,事前定義されたラベルを用いた従来の訓練手法の限界を克服している。
これによってコミュニティはゼロショット分類のようなタスクを前進させることができたが、そうでなければ不可能だった。
しかし、そのような表現を学習するには、大量の人間の注釈付き音声テキストペアが必要である。
本稿では,教師なしのテキストと音声による表現の学習フレームワークを改善するための教師なしアプローチについて検討する。
ドメイン固有およびドメイン固有のキュレーション手法を探索し、モデルをさらに改善するために使用する音声テキストペアを作成する。
また,ソフトラベルのコントラスト損失とともにドメイン固有キュレーションを用いた場合,下流の音響イベント分類や音響シーン分類タスクにおいて,ゼロショット分類性能の点で有意な改善が得られた。
関連論文リスト
- Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。
ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。
我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文 参考訳(メタデータ) (2024-07-26T07:30:41Z) - Audio-visual Generalized Zero-shot Learning the Easy Way [20.60905505473906]
本稿では,EZ-AVGZLについて述べる。
我々は,VGGSound-GZSL,UCF-GZSL,ActivityNet-GZSLベンチマークについて広範な実験を行った。
論文 参考訳(メタデータ) (2024-07-18T01:57:16Z) - Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。
LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。
LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文 参考訳(メタデータ) (2024-07-11T01:57:08Z) - Listenable Maps for Zero-Shot Audio Classifiers [12.446324804274628]
我々はZero-Shotコンテキストで初めてLMAC-Z(Listenable Maps for Audio)を紹介した。
提案手法は,異なるテキストプロンプトとよく相関する有意義な説明を生成する。
論文 参考訳(メタデータ) (2024-05-27T19:25:42Z) - Enhance audio generation controllability through representation
similarity regularization [23.320569279485472]
本稿では,モデル学習における音声表現とテキスト表現のアライメントを強調することによって,音声生成の制御を強化する革新的なアプローチを提案する。
提案手法は、音声と音楽の両方の客観的な指標の改善と、音声生成における人間の知覚の向上につながる。
論文 参考訳(メタデータ) (2023-09-15T21:32:20Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Leveraging Language Model Capabilities for Sound Event Detection [10.792576135806623]
本稿では,音声イベントとその時間的位置を同時に生成しながら,音声特徴を理解するためのエンドツーエンドフレームワークを提案する。
具体的には、事前学習された音響モデルを用いて、異なるカテゴリーにわたる識別的特徴を捉え、自動回帰テキスト生成のための言語モデルを用いる。
論文 参考訳(メタデータ) (2023-08-22T15:59:06Z) - Cross-domain Voice Activity Detection with Self-Supervised
Representations [9.02236667251654]
音声活動検出(Voice Activity Detection, VAD)は、音声信号の音声区間を検出することを目的とする。
現在の最先端の手法は、音響に直接含まれている特徴を活用するニューラルネットワークのトレーニングに重点を置いている。
自己監視学習(SSL)に基づく表現は,異なる領域に適応可能であることを示す。
論文 参考訳(メタデータ) (2022-09-22T14:53:44Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。