論文の概要: Improving Natural-Language-based Audio Retrieval with Transfer Learning
and Audio & Text Augmentations
- arxiv url: http://arxiv.org/abs/2208.11460v1
- Date: Wed, 24 Aug 2022 11:54:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-25 13:38:00.199887
- Title: Improving Natural-Language-based Audio Retrieval with Transfer Learning
and Audio & Text Augmentations
- Title(参考訳): 転送学習と音声・テキスト拡張による自然言語に基づく音声検索の改善
- Authors: Paul Primus and Gerhard Widmer
- Abstract要約: 本稿では,録音やテキストによる記述を共有音声空間に投影するシステムを提案する。
以上の結果から, 使用済み拡張戦略は過剰適合を低減し, 検索性能の向上を図っている。
さらに、AudioCapsデータセットで事前トレーニングを行うことで、さらなる改善がもたらされることを示す。
- 参考スコア(独自算出の注目度): 7.817685358710508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The absence of large labeled datasets remains a significant challenge in many
application areas of deep learning. Researchers and practitioners typically
resort to transfer learning and data augmentation to alleviate this issue. We
study these strategies in the context of audio retrieval with natural language
queries (Task 6b of the DCASE 2022 Challenge). Our proposed system uses
pre-trained embedding models to project recordings and textual descriptions
into a shared audio-caption space in which related examples from different
modalities are close. We employ various data augmentation techniques on audio
and text inputs and systematically tune their corresponding hyperparameters
with sequential model-based optimization. Our results show that the used
augmentations strategies reduce overfitting and improve retrieval performance.
We further show that pre-training the system on the AudioCaps dataset leads to
additional improvements.
- Abstract(参考訳): 大規模ラベル付きデータセットが存在しないことは、ディープラーニングの多くのアプリケーション領域において、依然として大きな課題である。
研究者や実践者は通常、この問題を軽減するために、学習とデータ拡張を転送する。
本稿では,これらの手法を自然言語クエリを用いた音声検索の文脈で検討する(DCASE 2022 Challenge のタスク6b)。
提案システムでは,事前学習された組込みモデルを用いて,録音やテキスト記述を共有オーディオキャプチャ空間に投影し,関連するモーダリティのサンプルを近接させる。
音声やテキストの入力に様々なデータ拡張技術を適用し,対応するハイパーパラメータを逐次モデルに基づく最適化で体系的に調整する。
その結果,使用中の拡張戦略により,過剰フィッティングが減少し,検索性能が向上した。
さらに,AudioCapsデータセットで事前トレーニングを行うことで,さらなる改善が期待できる。
関連論文リスト
- AudioSetMix: Enhancing Audio-Language Datasets with LLM-Assisted Augmentations [1.2101820447447276]
近年,音声言語領域におけるマルチモーダル学習は大きな進歩を遂げている。
しかし、音声学習は、画像言語タスクと比較して、限られたデータや低品質のデータによって困難に直面している。
本手法は,音声クリップを自然言語ラベルと対応する音声信号処理操作で拡張することにより,音声キャプチャペアを体系的に生成する。
このスケーラブルな方法は、テキストおよびオーディオ関連モデルの高品質なトレーニングデータセットであるAudioSetMixを生成する。
論文 参考訳(メタデータ) (2024-05-17T21:08:58Z) - Deepfake audio as a data augmentation technique for training automatic
speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。
インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文 参考訳(メタデータ) (2023-09-22T11:33:03Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Make-An-Audio 2: Temporal-Enhanced Text-to-Audio Generation [72.7915031238824]
大規模な拡散モデルは、テキスト・トゥ・オーディオ(T2A)合成タスクで成功している。
意味的不一致や時間的一貫性の低下といった共通の問題に悩まされることが多い。
我々は,Make-an-Audioの成功に基づいて,潜伏拡散に基づくT2A法であるMake-an-Audio 2を提案する。
論文 参考訳(メタデータ) (2023-05-29T10:41:28Z) - A Whisper transformer for audio captioning trained with synthetic
captions and transfer learning [0.0]
本稿では,事前学習された音声-テキスト-Whisperモデルの使用と,合成キャプションによる事前学習に着目し,音声キャプションへのアプローチを提案する。
以上の結果から,異なる学習方法が音響キャプションモデルの性能に及ぼす影響が示唆された。
論文 参考訳(メタデータ) (2023-05-15T22:20:07Z) - Efficient Audio Captioning Transformer with Patchout and Text Guidance [74.59739661383726]
本稿では, [1] で提案した Patchout を利用したフルトランスフォーマーアーキテクチャを提案する。
キャプション生成は、事前訓練された分類モデルにより抽出されたテキストオーディオセットタグに部分的に条件付けされる。
提案手法は,DCASE Challenge 2022のタスク6Aで審査員賞を受賞している。
論文 参考訳(メタデータ) (2023-04-06T07:58:27Z) - ASiT: Local-Global Audio Spectrogram vIsion Transformer for Event
Classification [42.95038619688867]
ASiTは、グループマスク付きモデル学習と自己蒸留を用いて、局所的およびグローバルな文脈情報をキャプチャする、新しい自己教師型学習フレームワークである。
我々は、音声イベント分類、キーワードスポッティング、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2022-11-23T18:21:09Z) - Matching Text and Audio Embeddings: Exploring Transfer-learning
Strategies for Language-based Audio Retrieval [11.161404854726348]
本稿では,クロスモーダル(テキスト・トゥ・オーディオ)検索に用いる大規模事前学習モデルの解析を行う。
我々は、これらのモデルから抽出された埋め込みをメトリクス学習フレームワークで使用し、一致するオーディオとテキストのペアを接続する。
論文 参考訳(メタデータ) (2022-10-06T11:45:14Z) - Automated Audio Captioning: an Overview of Recent Progress and New
Challenges [56.98522404673527]
自動音声キャプションは、与えられた音声クリップの自然言語記述を生成することを目的とした、モーダル横断翻訳タスクである。
本稿では、既存の様々なアプローチから評価指標やデータセットまで、自動音声キャプションにおけるコントリビューションの総合的なレビューを行う。
論文 参考訳(メタデータ) (2022-05-12T08:36:35Z) - Audio-text Retrieval in Context [24.38055340045366]
そこで本研究では,音声・テキストのアライメントを改善するために,複数のオーディオ機能とシーケンスアグリゲーション手法について検討する。
我々は,事前学習した音声特徴と記述子に基づくアグリゲーション法を用いた文脈音声テキスト検索システムを構築した。
提案システムでは、リコール、中央値、平均値を含むすべての指標において、双方向音声テキスト検索において顕著な改善が達成されている。
論文 参考訳(メタデータ) (2022-03-25T13:41:17Z) - Visual Speech Recognition for Multiple Languages in the Wild [64.52593130370757]
より優れたVSRモデルを設計することが、より大きなトレーニングセットを使用する上でも同様に重要であることを示す。
VSRモデルに予測に基づく補助タスクを追加することを提案する。
このようなモデルは、異なる言語で動作し、公開データセット上でトレーニングされたこれまでのすべてのメソッドを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2022-02-26T07:21:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。