論文の概要: TAIL: Text-Audio Incremental Learning
- arxiv url: http://arxiv.org/abs/2503.04258v1
- Date: Thu, 06 Mar 2025 09:39:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:00:45.115502
- Title: TAIL: Text-Audio Incremental Learning
- Title(参考訳): TAIL:テキスト・オーディオ・インクリメンタルラーニング
- Authors: Yingfei Sun, Xu Gu, Wei Ji, Hanbin Zhao, Hao Fei, Yifang Yin, Roger Zimmermann,
- Abstract要約: 新しいデータセットの導入は、元のデータセットの機能空間に影響を与える可能性がある。
テキスト・オーディオ検索のためのテキスト・オーディオ・インクリメンタル・ラーニング・タスクを提案する。
音声テキストインクリメンタル学習のための新しい手法PTAT, Prompt Tuningを提案する。
- 参考スコア(独自算出の注目度): 40.43860056218282
- License:
- Abstract: Many studies combine text and audio to capture multi-modal information but they overlook the model's generalization ability on new datasets. Introducing new datasets may affect the feature space of the original dataset, leading to catastrophic forgetting. Meanwhile, large model parameters can significantly impact training performance. To address these limitations, we introduce a novel task called Text-Audio Incremental Learning (TAIL) task for text-audio retrieval, and propose a new method, PTAT, Prompt Tuning for Audio-Text incremental learning. This method utilizes prompt tuning to optimize the model parameters while incorporating an audio-text similarity and feature distillation module to effectively mitigate catastrophic forgetting. We benchmark our method and previous incremental learning methods on AudioCaps, Clotho, BBC Sound Effects and Audioset datasets, and our method outperforms previous methods significantly, particularly demonstrating stronger resistance to forgetting on older datasets. Compared to the full-parameters Finetune (Sequential) method, our model only requires 2.42\% of its parameters, achieving 4.46\% higher performance.
- Abstract(参考訳): 多くの研究は、テキストとオーディオを組み合わせてマルチモーダル情報をキャプチャするが、新しいデータセットにおけるモデルの一般化能力を見落としている。
新しいデータセットの導入は、元のデータセットの機能空間に影響を与える可能性がある。
一方、大きなモデルパラメータはトレーニングのパフォーマンスに大きな影響を与えます。
これらの制約に対処するために,テキストオーディオ検索のためのテキスト・オーディオ・インクリメンタル・ラーニング(TAIL)タスクを導入し,音声テキストインクリメンタル・ラーニングのためのPTAT, Prompt Tuningを提案する。
本手法は,音声-テキスト類似性と特徴蒸留モジュールを組み込んだモデルパラメータの最適化にプロンプトチューニングを用い,破滅的忘れを効果的に軽減する。
我々は,AudioCaps,Clotho,BBC Sound Effects,Audiosetの各データセットに対して,従来手法よりも優れたインクリメンタル学習手法とベンチマークを行った。
フルパラメータファインチューン (Sequential) 法と比較して,本モデルではパラメータの 2.42 % しか必要とせず,性能は 4.46 % である。
関連論文リスト
- Language-based Audio Retrieval with Co-Attention Networks [22.155383794829977]
本稿では,言語に基づく音声検索のための新しいフレームワークを提案する。
本稿では,テキストと音声のセマンティックアライメントを改良するために,コアテンションモジュールを積み重ねたり繰り返したりする,カスケード型コアテンションアーキテクチャを提案する。
2つの公開データセットで行った実験により,提案手法は最先端手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2024-12-30T12:49:55Z) - Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data [69.7174072745851]
音声分類データセットを合成データで拡張する新しい手法であるSynthioを提案する。
最初の課題を克服するために、好みの最適化を用いて、T2Aモデルの世代と小規模データセットを整列する。
2つ目の課題に対処するために,大規模言語モデルの推論能力を活用する新しいキャプション生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T22:05:36Z) - AudioSetMix: Enhancing Audio-Language Datasets with LLM-Assisted Augmentations [1.2101820447447276]
近年,音声言語領域におけるマルチモーダル学習は大きな進歩を遂げている。
しかし、音声学習は、画像言語タスクと比較して、限られたデータや低品質のデータによって困難に直面している。
本手法は,音声クリップを自然言語ラベルと対応する音声信号処理操作で拡張することにより,音声キャプチャペアを体系的に生成する。
このスケーラブルな方法は、テキストおよびオーディオ関連モデルの高品質なトレーニングデータセットであるAudioSetMixを生成する。
論文 参考訳(メタデータ) (2024-05-17T21:08:58Z) - Revisiting Deep Audio-Text Retrieval Through the Lens of Transportation [46.657781785006506]
音声テキスト検索問題に対するm-LTM(mini-batch Learning-to-match)フレームワークを提案する。
本研究では,AudioCaps,Clotho,ESC-50の3つのデータセットを用いて,音声テキストマッチング問題の実験を行った。
提案手法は,SOTA性能を実現するリッチで表現力豊かな関節埋め込み空間を学習することができる。
論文 参考訳(メタデータ) (2024-05-16T13:28:10Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Text-to-Audio Generation using Instruction-Tuned LLM and Latent
Diffusion Model [23.058939018350603]
大型言語モデル(LLM)は、命令やチェーン・オブ・シンクベースの微調整など、多くの興味深い特性を実現する。
我々は、テキスト・トゥ・オーディオ(TTA)生成のためのテキストエンコーダとして、命令調整型LLM Flan-T5を採用する。
我々のアプローチであるTANGOは、ほとんどのメトリクスで最先端のAudioLDMより優れており、AudioCapsテストセットで他と同等です。
論文 参考訳(メタデータ) (2023-04-24T07:45:28Z) - Improving Natural-Language-based Audio Retrieval with Transfer Learning
and Audio & Text Augmentations [7.817685358710508]
本稿では,録音やテキストによる記述を共有音声空間に投影するシステムを提案する。
以上の結果から, 使用済み拡張戦略は過剰適合を低減し, 検索性能の向上を図っている。
さらに、AudioCapsデータセットで事前トレーニングを行うことで、さらなる改善がもたらされることを示す。
論文 参考訳(メタデータ) (2022-08-24T11:54:42Z) - Learning Phone Recognition from Unpaired Audio and Phone Sequences Based
on Generative Adversarial Network [58.82343017711883]
そこで本研究では,不適切な音声系列や発話から直接学習する方法について検討する。
GAN訓練を第1段階に導入し,無声音声と音声シーケンスのマッピング関係を求める。
第2段階では、発電機の出力からトレーニングするために別のHMMモデルが導入され、性能が向上する。
論文 参考訳(メタデータ) (2022-07-29T09:29:28Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z) - TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval [103.85002875155551]
本研究では,大規模言語前訓練を利用した一般化蒸留法TeachTextを提案する。
提案手法をビデオ側モダリティに拡張し,テスト時に使用するモダリティの数を効果的に削減できることを示す。
提案手法は,いくつかのビデオ検索ベンチマークの精度を著しく向上させ,テスト時の計算オーバーヘッドを増加させない。
論文 参考訳(メタデータ) (2021-04-16T17:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。