論文の概要: Estimated Audio-Caption Correspondences Improve Language-Based Audio Retrieval
- arxiv url: http://arxiv.org/abs/2408.11641v1
- Date: Wed, 21 Aug 2024 14:10:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 16:47:35.151149
- Title: Estimated Audio-Caption Correspondences Improve Language-Based Audio Retrieval
- Title(参考訳): 言語に基づく音声検索を改善する推定音声字幕対応
- Authors: Paul Primus, Florian Schmid, Gerhard Widmer,
- Abstract要約: 本稿では,複数の検索モデルを推定文を使わずに訓練する2段階の訓練手法を提案する。
第2段階では、これらのモデルによって予測される音声カプセル対応が予測ターゲットとして機能する。
提案手法をClosoV2とAudioCapsベンチマークで評価し, 自己蒸留条件が制限された場合でも, 検索性能が向上することを示す。
- 参考スコア(独自算出の注目度): 3.5570874721859016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dual-encoder-based audio retrieval systems are commonly optimized with contrastive learning on a set of matching and mismatching audio-caption pairs. This leads to a shared embedding space in which corresponding items from the two modalities end up close together. Since audio-caption datasets typically only contain matching pairs of recordings and descriptions, it has become common practice to create mismatching pairs by pairing the audio with a caption randomly drawn from the dataset. This is not ideal because the randomly sampled caption could, just by chance, partly or entirely describe the audio recording. However, correspondence information for all possible pairs is costly to annotate and thus typically unavailable; we, therefore, suggest substituting it with estimated correspondences. To this end, we propose a two-staged training procedure in which multiple retrieval models are first trained as usual, i.e., without estimated correspondences. In the second stage, the audio-caption correspondences predicted by these models then serve as prediction targets. We evaluate our method on the ClothoV2 and the AudioCaps benchmark and show that it improves retrieval performance, even in a restricting self-distillation setting where a single model generates and then learns from the estimated correspondences. We further show that our method outperforms the current state of the art by 1.6 pp. mAP@10 on the ClothoV2 benchmark.
- Abstract(参考訳): デュアルエンコーダをベースとした音声検索システムは、整合性と不整合性を持つオーディオ・キャプション・ペアのセットにおいて、コントラスト学習によって最適化される。
これにより、2つのモダリティから対応するアイテムが互いに近接する共有埋め込み空間が導かれる。
音声キャプチャデータセットは、通常、一致する記録と記述のペアのみを含むため、データセットからランダムに引き出されたキャプションとオーディオをペアにすることで、ミスマッチペアを作成するのが一般的である。
これは、ランダムにサンプリングされたキャプションが、偶然に部分的に、あるいは完全にオーディオ記録を記述できるため、理想的ではない。
しかし、全ての可能なペアの対応情報は注釈を付けるのに費用がかかるため、一般的には利用できない。
そこで本研究では,複数の検索モデルに対して,推定対応を伴わない2段階の学習手順を提案する。
第2段階では、これらのモデルによって予測される音声カプセル対応が予測ターゲットとして機能する。
提案手法をClosoV2とAudioCapsベンチマークで評価し,単一モデルが生成し,推定した対応から学習する制限付き自己蒸留環境においても,検索性能が向上することを示す。
さらに,本手法は現在の最先端技術よりも1.6pp%高い性能を示した。
ClothoV2ベンチマークのmAP@10。
関連論文リスト
- Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - AV-data2vec: Self-supervised Learning of Audio-Visual Speech
Representations with Contextualized Target Representations [88.30635799280923]
AV-data2vecを導入し、文脈化表現の予測に基づいて音声・視覚表現を構築する。
LRS3の結果は、AV-data2vecが、同じ量のデータとモデルサイズで既存のメソッドを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-10T02:55:52Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - A Complementary Joint Training Approach Using Unpaired Speech and Text
for Low-Resource Automatic Speech Recognition [25.473191378558138]
非ペアデータを利用して、一般的なシーケンス・ツー・シーケンスモデルをトレーニングする。
音声-疑似ラベルペアと合成音声テキストペアの相補性に着想を得て,補足的関節訓練(CJT)法を提案する。
論文 参考訳(メタデータ) (2022-04-05T07:02:53Z) - Audio-Visual Synchronisation in the wild [149.84890978170174]
我々は,VGG-Sound Syncという,高い音声・視覚相関を持つテストセットを同定し,キュレートする。
任意の長さの音響信号と視覚信号のモデル化に特化して設計された,トランスフォーマーに基づく多数のアーキテクチャ変種を比較した。
我々は,新しいVGG-Sound Syncビデオデータセットにおいて,160以上の多様なクラスと一般的な音声-視覚同期のための最初のベンチマークを設定した。
論文 参考訳(メタデータ) (2021-12-08T17:50:26Z) - Using multiple reference audios and style embedding constraints for
speech synthesis [68.62945852651383]
提案モデルでは,複数の参照音声を用いて音声の自然さとコンテンツ品質を向上させることができる。
モデルは、スタイル類似性のABX選好テストにおいてベースラインモデルよりも優れている。
論文 参考訳(メタデータ) (2021-10-09T04:24:29Z) - Any-to-One Sequence-to-Sequence Voice Conversion using Self-Supervised
Discrete Speech Representations [49.55361944105796]
シーケンス・ツー・シーケンス・フレームワークにおいて,任意のA2O音声変換(VC)に対して新しいアプローチを提案する。
A2O VCは、トレーニング中に目に見えないものを含むあらゆる話者を、固定されたターゲットスピーカーに変換することを目指している。
論文 参考訳(メタデータ) (2020-10-23T08:34:52Z) - Audio-based Near-Duplicate Video Retrieval with Audio Similarity
Learning [19.730467023817123]
ビデオペア間の音声類似性の時間的パターンを効果的にキャプチャするオーディオ類似性学習(AuSiL)手法を提案する。
我々は三重項生成プロセスに従ってネットワークをトレーニングし、三重項損失関数を最適化する。
提案手法は3つの最先端手法と比較して非常に競合的な結果が得られる。
論文 参考訳(メタデータ) (2020-10-17T08:12:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。