論文の概要: Improving Audio-Language Learning with MixGen and Multi-Level Test-Time
Augmentation
- arxiv url: http://arxiv.org/abs/2210.17143v1
- Date: Mon, 31 Oct 2022 08:50:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 18:47:19.762110
- Title: Improving Audio-Language Learning with MixGen and Multi-Level Test-Time
Augmentation
- Title(参考訳): MixGenとマルチレベルテスト時間拡張によるオーディオ言語学習の改善
- Authors: Eungbeom Kim, Jinhee Kim, Yoori Oh, Kyungsu Kim, Minju Park, Jaeheon
Sim, Jinwoo Lee, Kyogu Lee
- Abstract要約: 本稿では,1) 音声言語MixGen (AL-MixGen) と2) マルチレベルテスト時間拡張 (Multi-TTA) の2つの新しい拡張手法を提案する。
AL-MixGenとMulti-TTAがベースラインに組み込まれ、オーディオキャプションで47.5 SPIDErを達成する。
音声テキスト検索では,提案手法はベースライン性能を超越する。
- 参考スコア(独自算出の注目度): 13.877876020377373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose two novel augmentation methods 1) audio-language
MixGen (AL-MixGen) and 2) multi-level test-time augmentation (Multi-TTA) for
audio-language learning. Inspired by MixGen, which is originally applied to
vision-language learning, we introduce an augmentation method for the
audio-language domain. We also explore the impact of test-time augmentations
and present Multi-TTA which generalizes test-time augmentation over multiple
layers of a deep learning model. Incorporating AL-MixGen and Multi-TTA into the
baseline achieves 47.5 SPIDEr on audio captioning, which is an +18.2% over the
baseline and outperforms the state-of-the-art approach with a 5x smaller model.
In audio-text retrieval, the proposed methods surpass the baseline performance
as well.
- Abstract(参考訳): 本稿では,新しい拡張法を2つ提案する。
1)音声言語MixGen(AL-MixGen)および
2) 音声学習のためのマルチレベルテスト時間拡張(Multi-TTA)。
視覚言語学習に応用されたMixGenに着想を得て,音声言語領域の拡張手法を提案する。
また、テスト時間拡張の影響についても検討し、深層学習モデルの複数層にわたるテスト時間拡張を一般化するマルチTTAを提案する。
AL-MixGenとMulti-TTAをベースラインに組み込むことで、オーディオキャプションの47.5 SPIDErを達成する。
音声テキスト検索では,提案手法はベースライン性能を超越する。
関連論文リスト
- Language-based Audio Retrieval with Co-Attention Networks [22.155383794829977]
本稿では,言語に基づく音声検索のための新しいフレームワークを提案する。
本稿では,テキストと音声のセマンティックアライメントを改良するために,コアテンションモジュールを積み重ねたり繰り返したりする,カスケード型コアテンションアーキテクチャを提案する。
2つの公開データセットで行った実験により,提案手法は最先端手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2024-12-30T12:49:55Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Rethinking and Improving Multi-task Learning for End-to-end Speech
Translation [51.713683037303035]
異なる時間とモジュールを考慮したタスク間の整合性について検討する。
テキストエンコーダは、主にクロスモーダル変換を容易にするが、音声におけるノイズの存在は、テキストと音声表現の一貫性を妨げる。
長さと表現の差を軽減し,モーダルギャップを橋渡しする,STタスクのための改良型マルチタスク学習(IMTL)手法を提案する。
論文 参考訳(メタデータ) (2023-11-07T08:48:46Z) - Speed Co-Augmentation for Unsupervised Audio-Visual Pre-training [102.18680666349806]
本稿では,音声とビデオデータの再生速度をランダムに変更する高速化手法を提案する。
実験の結果,提案手法は,バニラ音声・視覚的コントラスト学習と比較して,学習表現を著しく改善することがわかった。
論文 参考訳(メタデータ) (2023-09-25T08:22:30Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Improving Natural-Language-based Audio Retrieval with Transfer Learning
and Audio & Text Augmentations [7.817685358710508]
本稿では,録音やテキストによる記述を共有音声空間に投影するシステムを提案する。
以上の結果から, 使用済み拡張戦略は過剰適合を低減し, 検索性能の向上を図っている。
さらに、AudioCapsデータセットで事前トレーニングを行うことで、さらなる改善がもたらされることを示す。
論文 参考訳(メタデータ) (2022-08-24T11:54:42Z) - Adaptive multilingual speech recognition with pretrained models [24.01587237432548]
本稿では,2つのモードに対して事前学習した2つのモデルの有効性について検討する。
全体としては、純粋に教師付き学習よりも44%の改善が見られた。
論文 参考訳(メタデータ) (2022-05-24T18:29:07Z) - Semi-supervised transfer learning for language expansion of end-to-end
speech recognition models to low-resource languages [19.44975351652865]
低音源言語における音声認識精度向上のための3段階学習手法を提案する。
我々は、翻訳学習、TS拡張、SSLを用いて、よく訓練された英語モデル、ラベルなしテキストコーパス、ラベルなしオーディオコーパスを利用する。
第1パスにおけるモノトニック・チャンクワイド・アテンション(MoA)を用いた2パス音声認識システムでは,ベースラインに対するWERの42%削減を実現している。
論文 参考訳(メタデータ) (2021-11-19T05:09:16Z) - Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks [20.316239155843963]
本稿では,音声表現学習手法を提案し,それを下流の音声非音声タスクに適用する。
AudioSetベンチマークでは、平均平均精度(mAP)スコアが0.415に達しています。
論文 参考訳(メタデータ) (2021-10-14T12:32:40Z) - Deep Audio-Visual Learning: A Survey [53.487938108404244]
現在の音声・視覚学習タスクを4つのサブフィールドに分割する。
本稿では,各サブフィールドに残る課題だけでなく,最先端の手法についても論じる。
一般的に使用されるデータセットとパフォーマンスメトリクスを要約します。
論文 参考訳(メタデータ) (2020-01-14T13:11:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。