論文の概要: Mind the Prompt: Prompting Strategies in Audio Generations for Improving Sound Classification
- arxiv url: http://arxiv.org/abs/2504.03329v1
- Date: Fri, 04 Apr 2025 10:14:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:47:22.013818
- Title: Mind the Prompt: Prompting Strategies in Audio Generations for Improving Sound Classification
- Title(参考訳): Mind the Prompt: 音の分類を改善するための音声生成手法の試行
- Authors: Francesca Ronchini, Ho-Hsiang Wu, Wei-Cheng Lin, Fabio Antonacci,
- Abstract要約: 本稿では,テキスト・トゥ・オーディオ(TTA)モデルを用いて,現実的なデータセットを生成するための効果的なプロンプト戦略の設計について検討する。
また、これらのデータセットを効率よく組み合わせて、音声分類タスクにおける有用性を高めるための様々な手法も分析する。
- 参考スコア(独自算出の注目度): 12.366268245104877
- License:
- Abstract: This paper investigates the design of effective prompt strategies for generating realistic datasets using Text-To-Audio (TTA) models. We also analyze different techniques for efficiently combining these datasets to enhance their utility in sound classification tasks. By evaluating two sound classification datasets with two TTA models, we apply a range of prompt strategies. Our findings reveal that task-specific prompt strategies significantly outperform basic prompt approaches in data generation. Furthermore, merging datasets generated using different TTA models proves to enhance classification performance more effectively than merely increasing the training dataset size. Overall, our results underscore the advantages of these methods as effective data augmentation techniques using synthetic data.
- Abstract(参考訳): 本稿では,テキスト・トゥ・オーディオ(TTA)モデルを用いて,現実的なデータセットを生成するための効果的なプロンプト戦略の設計について検討する。
また、これらのデータセットを効率よく組み合わせて、音声分類タスクにおける有用性を高めるための様々な手法も分析する。
2つのTTAモデルを用いて2つの音響分類データセットを評価することにより、様々なプロンプト戦略を適用する。
その結果,タスク固有のプロンプト戦略は,データ生成における基本的なプロンプト手法よりも有意に優れていることがわかった。
さらに、異なるTTAモデルを用いて生成されたデータセットをマージすることで、単にトレーニングデータセットのサイズを拡大するだけでなく、分類性能を効果的に向上することが証明される。
以上の結果から,これらの手法の利点を,合成データを用いた効率的なデータ拡張手法として評価した。
関連論文リスト
- READ: Reinforcement-based Adversarial Learning for Text Classification with Limited Labeled Data [7.152603583363887]
BERTのような事前訓練されたトランスフォーマーモデルは、多くのテキスト分類タスクで大幅に向上している。
本稿では,強化学習に基づくテキスト生成と半教師付き対角学習アプローチをカプセル化する手法を提案する。
提案手法であるREADは、ラベルのないデータセットを用いて、強化学習を通じて多様な合成テキストを生成する。
論文 参考訳(メタデータ) (2025-01-14T11:39:55Z) - ETTA: Elucidating the Design Space of Text-to-Audio Models [33.831803213869605]
対象ベンチマークに対するデータ,モデルアーキテクチャ,目標関数のトレーニング,およびサンプリング戦略の効果について検討する。
Eucidated Text-To-Audio (ETTA) と呼ばれる最良のモデルを提案する。
ETTAは、公開データでトレーニングされたベースラインよりも改善され、プロプライエタリデータでトレーニングされたモデルと競合する。
論文 参考訳(メタデータ) (2024-12-26T21:13:12Z) - Acoustic Model Optimization over Multiple Data Sources: Merging and Valuation [13.009945735929445]
本稿では,音声認識分野の課題を解くための新しいパラダイムを提案する。
最初の段階では、完全な音声データの異なるサブセットに基づいて複数の音響モデルを訓練する。
第2段階では、2つの新しいアルゴリズムを用いて高品質な音響モデルを生成する。
論文 参考訳(メタデータ) (2024-10-21T03:48:23Z) - Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data [69.7174072745851]
音声分類データセットを合成データで拡張する新しい手法であるSynthioを提案する。
最初の課題を克服するために、好みの最適化を用いて、T2Aモデルの世代と小規模データセットを整列する。
2つ目の課題に対処するために,大規模言語モデルの推論能力を活用する新しいキャプション生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T22:05:36Z) - Parameter-Efficient Active Learning for Foundational models [7.799711162530711]
基礎的な視覚変換器モデルは、多くの視覚タスクにおいて、驚くほどのショットパフォーマンスを示している。
本研究は,アクティブラーニング(AL)フレームワークにおけるパラメータ効率の良い微調整手法の適用に関する新たな研究である。
論文 参考訳(メタデータ) (2024-06-13T16:30:32Z) - One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。
我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - SingAug: Data Augmentation for Singing Voice Synthesis with
Cycle-consistent Training Strategy [69.24683717901262]
深層学習に基づく歌唱音声合成システム(SVS)は、より優れた品質の歌唱を柔軟に生成することが実証されている。
本研究では,SVSシステムのトレーニングを促進するために,さまざまなデータ拡張手法について検討する。
トレーニングをさらに安定させるために,サイクル一貫性トレーニング戦略を導入する。
論文 参考訳(メタデータ) (2022-03-31T12:50:10Z) - Guiding Generative Language Models for Data Augmentation in Few-Shot
Text Classification [59.698811329287174]
我々は、GPT-2を用いて、分類性能を向上させるために、人工訓練インスタンスを生成する。
実験の結果,少数のラベルインスタンスでGPT-2を微調整すると,一貫した分類精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-11-17T12:10:03Z) - Smart(Sampling)Augment: Optimal and Efficient Data Augmentation for
Semantic Segmentation [68.8204255655161]
セマンティックイメージセグメンテーションに関する最初の研究を行い、textitSmartAugment と textitSmartSamplingAugment の2つの新しいアプローチを紹介した。
SmartAugmentはベイジアン最適化を使用して、拡張戦略の豊富なスペースを探索し、私たちが考慮しているすべてのセマンティックセグメンテーションタスクにおいて、新しい最先端のパフォーマンスを達成する。
SmartSamplingAugmentは、固定的な拡張戦略を備えたシンプルなパラメータフリーのアプローチで、既存のリソース集約型アプローチとパフォーマンスを競い合い、安価な最先端データ拡張手法を上回っている。
論文 参考訳(メタデータ) (2021-10-31T13:04:45Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。