論文の概要: Language-Based Audio Retrieval with Converging Tied Layers and
Contrastive Loss
- arxiv url: http://arxiv.org/abs/2206.14659v1
- Date: Wed, 29 Jun 2022 13:59:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-30 23:28:21.492391
- Title: Language-Based Audio Retrieval with Converging Tied Layers and
Contrastive Loss
- Title(参考訳): 収束する階層層とコントラスト損失を持つ言語に基づく音声検索
- Authors: Andrew Koh, Eng Siong Chng
- Abstract要約: 我々は,DCASE 2022で提案された新たな言語ベース音声検索課題に取り組む。
まず,オーディオエンコーダとテキストエンコーダを結合した,シンプルでスケーラブルなアーキテクチャを提案する。
第二に、このアーキテクチャと対照的な損失を併用することで、モデルがベースラインモデルの性能を大幅に上回ることを示す。
- 参考スコア(独自算出の注目度): 21.706767918081905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we tackle the new Language-Based Audio Retrieval task proposed
in DCASE 2022. Firstly, we introduce a simple, scalable architecture which ties
both the audio and text encoder together. Secondly, we show that using this
architecture along with contrastive loss allows the model to significantly beat
the performance of the baseline model. Finally, in addition to having an
extremely low training memory requirement, we are able to use pretrained models
as it is without needing to finetune them. We test our methods and show that
using a combination of our methods beats the baseline scores significantly.
- Abstract(参考訳): 本稿では,dcase 2022で提案されている新しい言語に基づく音声検索課題に取り組む。
まず,音声エンコーダとテキストエンコーダを結合した,シンプルでスケーラブルなアーキテクチャを提案する。
第2に,コントラスト損失とともにこのアーキテクチャを用いることで,モデルがベースラインモデルの性能を大幅に上回ることができることを示す。
最後に、トレーニングメモリの要件が極めて低いことに加えて、トレーニング済みのモデルを微調整することなく使用することができます。
提案手法をテストした結果,本手法の組み合わせがベースラインスコアを大幅に上回ることを確認した。
関連論文リスト
- Estimated Audio-Caption Correspondences Improve Language-Based Audio Retrieval [3.5570874721859016]
本稿では,複数の検索モデルを推定文を使わずに訓練する2段階の訓練手法を提案する。
第2段階では、これらのモデルによって予測される音声カプセル対応が予測ターゲットとして機能する。
提案手法をClosoV2とAudioCapsベンチマークで評価し, 自己蒸留条件が制限された場合でも, 検索性能が向上することを示す。
論文 参考訳(メタデータ) (2024-08-21T14:10:58Z) - Retrieval-Augmented Text-to-Audio Generation [36.328134891428085]
本稿では,AudioLDMのような最先端モデルが,その世代性能に偏っていることを示す。
本稿では,TTAモデルに対する単純な検索拡張手法を提案する。
Re-AudioLDMは、複雑なシーン、稀なオーディオクラス、さらには目に見えないオーディオタイプに対して、現実的なオーディオを生成することができる。
論文 参考訳(メタデータ) (2023-09-14T22:35:39Z) - TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at
Scale [59.01246141215051]
言語指導の観点から,その劣化要因を分析した。
本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。
最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
論文 参考訳(メタデータ) (2023-05-23T15:44:56Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Matching Text and Audio Embeddings: Exploring Transfer-learning
Strategies for Language-based Audio Retrieval [11.161404854726348]
本稿では,クロスモーダル(テキスト・トゥ・オーディオ)検索に用いる大規模事前学習モデルの解析を行う。
我々は、これらのモデルから抽出された埋め込みをメトリクス学習フレームワークで使用し、一致するオーディオとテキストのペアを接続する。
論文 参考訳(メタデータ) (2022-10-06T11:45:14Z) - Learning Phone Recognition from Unpaired Audio and Phone Sequences Based
on Generative Adversarial Network [58.82343017711883]
そこで本研究では,不適切な音声系列や発話から直接学習する方法について検討する。
GAN訓練を第1段階に導入し,無声音声と音声シーケンスのマッピング関係を求める。
第2段階では、発電機の出力からトレーニングするために別のHMMモデルが導入され、性能が向上する。
論文 参考訳(メタデータ) (2022-07-29T09:29:28Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - Training Robust Zero-Shot Voice Conversion Models with Self-supervised
Features [24.182732872327183]
Unsampling Zero-Shot Voice Conversion (VC) は、発話の話者特性を未確認のターゲット話者に合わせるように修正することを目的としている。
長さ再構成デコーダを用いて高品質なオーディオサンプルを作成可能であることを示す。
論文 参考訳(メタデータ) (2021-12-08T17:27:39Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。