論文の概要: Exploring Train and Test-Time Augmentations for Audio-Language Learning
- arxiv url: http://arxiv.org/abs/2210.17143v2
- Date: Tue, 23 May 2023 08:54:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 01:12:10.728922
- Title: Exploring Train and Test-Time Augmentations for Audio-Language Learning
- Title(参考訳): 音声言語学習のための列車とテスト時間拡張の探索
- Authors: Eungbeom Kim, Jinhee Kim, Yoori Oh, Kyungsu Kim, Minju Park, Jaeheon
Sim, Jinwoo Lee, Kyogu Lee
- Abstract要約: PairMixは,音声の自動字幕化や音声テキスト検索タスクにおいて,ベースラインよりも優れる。
また,テスト時間に対するマルチレベルテスト時間拡張(Multi-TTA)を提案する。
音声テキスト検索では,提案手法も性能改善を示す。
- 参考スコア(独自算出の注目度): 13.877876020377373
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we aim to unveil the impact of data augmentation in
audio-language multi-modal learning, which has not been explored despite its
importance. We explore various augmentation methods at not only train-time but
also test-time and find out that proper data augmentation can lead to
substantial improvements. Specifically, applying our proposed audio-language
paired augmentation PairMix, which is the first multi-modal audio-language
augmentation method, outperforms the baselines for both automated audio
captioning and audio-text retrieval tasks. To fully take advantage of data
augmentation, we also present multi-level test-time augmentation (Multi-TTA)
for the test-time. We successfully incorporate the two proposed methods and
uni-modal augmentations and achieve 47.5 SPIDEr on audio captioning, which is
an 18.2% relative increase over the baseline. In audio-text retrieval, the
proposed methods also show an improvement in performance as well.
- Abstract(参考訳): 本稿では,その重要性にもかかわらず検討されていない多モーダル学習におけるデータ拡張の効果を明らかにすることを目的とする。
列車時間だけでなくテスト時間でも様々な拡張手法を探索し、適切なデータ拡張が大幅な改善につながることを確かめる。
具体的には、最初のマルチモーダルな音声言語拡張手法であるPairMixを用いて、自動音声キャプションと音声テキスト検索の両タスクのベースラインを上回った。
データ拡張を完全に活用するために、テスト時間に対するマルチレベルテスト時間拡張(Multi-TTA)も提示する。
提案手法と一様拡張法を併用し,音声キャプションにおける47.5 SPIDErを実現し,ベースラインに対する18.2%の相対的な増加を示した。
音声テキスト検索において,提案手法は性能も向上している。
関連論文リスト
- Rethinking and Improving Multi-task Learning for End-to-end Speech
Translation [51.713683037303035]
異なる時間とモジュールを考慮したタスク間の整合性について検討する。
テキストエンコーダは、主にクロスモーダル変換を容易にするが、音声におけるノイズの存在は、テキストと音声表現の一貫性を妨げる。
長さと表現の差を軽減し,モーダルギャップを橋渡しする,STタスクのための改良型マルチタスク学習(IMTL)手法を提案する。
論文 参考訳(メタデータ) (2023-11-07T08:48:46Z) - Speed Co-Augmentation for Unsupervised Audio-Visual Pre-training [102.18680666349806]
本稿では,音声とビデオデータの再生速度をランダムに変更する高速化手法を提案する。
実験の結果,提案手法は,バニラ音声・視覚的コントラスト学習と比較して,学習表現を著しく改善することがわかった。
論文 参考訳(メタデータ) (2023-09-25T08:22:30Z) - Reduce, Reuse, Recycle: Is Perturbed Data better than Other Language
augmentation for Low Resource Self-Supervised Speech Models [52.92618442300405]
自己教師付き表現学習(SSRL)は、教師付きモデルと比較して下流音素認識の性能を改善した。
SSRLモデルのトレーニングには大量の事前学習データが必要である。
本稿では,低リソース条件下でのSSRLモデルの事前学習に音声拡張を用い,音素認識をダウンストリームタスクとして評価する。
論文 参考訳(メタデータ) (2023-09-22T10:09:09Z) - A Large-scale Dataset for Audio-Language Representation Learning [54.933479346870506]
本稿では,一連の公開ツールやAPIに基づいた,革新的で自動的な音声キャプション生成パイプラインを提案する。
我々はAuto-ACDという名前の大規模で高品質な音声言語データセットを構築し、190万以上の音声テキストペアからなる。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Weakly-Supervised Multi-Task Learning for Audio-Visual Speaker
Verification [0.5261718469769449]
オープンセット音声-視覚的話者照合のための頑健なマルチモーダル人物最適化表現を実現する手法を提案する。
我々のネットワークは,VoxCeleb1-O/E/Hの3つの公式トライアルリストにおいて,0.244%,0.252%,0.441%の誤り率(EER)を報告し,話者検証のための技術性能の状態を達成している。
論文 参考訳(メタデータ) (2023-09-13T17:45:41Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Improving Natural-Language-based Audio Retrieval with Transfer Learning
and Audio & Text Augmentations [7.817685358710508]
本稿では,録音やテキストによる記述を共有音声空間に投影するシステムを提案する。
以上の結果から, 使用済み拡張戦略は過剰適合を低減し, 検索性能の向上を図っている。
さらに、AudioCapsデータセットで事前トレーニングを行うことで、さらなる改善がもたらされることを示す。
論文 参考訳(メタデータ) (2022-08-24T11:54:42Z) - Adaptive multilingual speech recognition with pretrained models [24.01587237432548]
本稿では,2つのモードに対して事前学習した2つのモデルの有効性について検討する。
全体としては、純粋に教師付き学習よりも44%の改善が見られた。
論文 参考訳(メタデータ) (2022-05-24T18:29:07Z) - Semi-supervised transfer learning for language expansion of end-to-end
speech recognition models to low-resource languages [19.44975351652865]
低音源言語における音声認識精度向上のための3段階学習手法を提案する。
我々は、翻訳学習、TS拡張、SSLを用いて、よく訓練された英語モデル、ラベルなしテキストコーパス、ラベルなしオーディオコーパスを利用する。
第1パスにおけるモノトニック・チャンクワイド・アテンション(MoA)を用いた2パス音声認識システムでは,ベースラインに対するWERの42%削減を実現している。
論文 参考訳(メタデータ) (2021-11-19T05:09:16Z) - Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks [20.316239155843963]
本稿では,音声表現学習手法を提案し,それを下流の音声非音声タスクに適用する。
AudioSetベンチマークでは、平均平均精度(mAP)スコアが0.415に達しています。
論文 参考訳(メタデータ) (2021-10-14T12:32:40Z) - Deep Audio-Visual Learning: A Survey [53.487938108404244]
現在の音声・視覚学習タスクを4つのサブフィールドに分割する。
本稿では,各サブフィールドに残る課題だけでなく,最先端の手法についても論じる。
一般的に使用されるデータセットとパフォーマンスメトリクスを要約します。
論文 参考訳(メタデータ) (2020-01-14T13:11:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。