Fugu-MT 論文翻訳(概要): Exploring Train and Test-Time Augmentations for Audio-Language Learning

論文の概要: Exploring Train and Test-Time Augmentations for Audio-Language Learning

arxiv url: http://arxiv.org/abs/2210.17143v2
Date: Tue, 23 May 2023 08:54:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-25 01:12:10.728922
Title: Exploring Train and Test-Time Augmentations for Audio-Language Learning
Title（参考訳）: 音声言語学習のための列車とテスト時間拡張の探索
Authors: Eungbeom Kim, Jinhee Kim, Yoori Oh, Kyungsu Kim, Minju Park, Jaeheon Sim, Jinwoo Lee, Kyogu Lee
Abstract要約: PairMixは,音声の自動字幕化や音声テキスト検索タスクにおいて,ベースラインよりも優れる。また,テスト時間に対するマルチレベルテスト時間拡張(Multi-TTA)を提案する。音声テキスト検索では,提案手法も性能改善を示す。
参考スコア（独自算出の注目度）: 13.877876020377373
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we aim to unveil the impact of data augmentation in audio-language multi-modal learning, which has not been explored despite its importance. We explore various augmentation methods at not only train-time but also test-time and find out that proper data augmentation can lead to substantial improvements. Specifically, applying our proposed audio-language paired augmentation PairMix, which is the first multi-modal audio-language augmentation method, outperforms the baselines for both automated audio captioning and audio-text retrieval tasks. To fully take advantage of data augmentation, we also present multi-level test-time augmentation (Multi-TTA) for the test-time. We successfully incorporate the two proposed methods and uni-modal augmentations and achieve 47.5 SPIDEr on audio captioning, which is an 18.2% relative increase over the baseline. In audio-text retrieval, the proposed methods also show an improvement in performance as well.
Abstract（参考訳）: 本稿では,その重要性にもかかわらず検討されていない多モーダル学習におけるデータ拡張の効果を明らかにすることを目的とする。列車時間だけでなくテスト時間でも様々な拡張手法を探索し、適切なデータ拡張が大幅な改善につながることを確かめる。具体的には、最初のマルチモーダルな音声言語拡張手法であるPairMixを用いて、自動音声キャプションと音声テキスト検索の両タスクのベースラインを上回った。データ拡張を完全に活用するために、テスト時間に対するマルチレベルテスト時間拡張(Multi-TTA)も提示する。提案手法と一様拡張法を併用し,音声キャプションにおける47.5 SPIDErを実現し,ベースラインに対する18.2%の相対的な増加を示した。音声テキスト検索において,提案手法は性能も向上している。

関連論文リスト

Step-Audio 2 Technical Report [108.04129284951314]
Step-Audio 2は、業界における音声理解と音声会話のために設計された、エンドツーエンドのマルチモーダルな大規模言語モデルである。遅延オーディオエンコーダと推論中心強化学習(RL)を統合することにより、Step-Audio 2は自動音声認識(ASR)および音声理解において有望な性能を達成する。
論文参考訳（メタデータ） (2025-07-22T14:23:55Z)
From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-26T16:08:41Z)
TAIL: Text-Audio Incremental Learning [40.43860056218282]
新しいデータセットの導入は、元のデータセットの機能空間に影響を与える可能性がある。テキスト・オーディオ検索のためのテキスト・オーディオ・インクリメンタル・ラーニング・タスクを提案する。音声テキストインクリメンタル学習のための新しい手法PTAT, Prompt Tuningを提案する。
論文参考訳（メタデータ） (2025-03-06T09:39:36Z)
Language-based Audio Retrieval with Co-Attention Networks [22.155383794829977]
本稿では,言語に基づく音声検索のための新しいフレームワークを提案する。本稿では,テキストと音声のセマンティックアライメントを改良するために,コアテンションモジュールを積み重ねたり繰り返したりする,カスケード型コアテンションアーキテクチャを提案する。 2つの公開データセットで行った実験により,提案手法は最先端手法よりも優れた性能が得られることが示された。
論文参考訳（メタデータ） (2024-12-30T12:49:55Z)
Enhancing Retrieval-Augmented Audio Captioning with Generation-Assisted Multimodal Querying and Progressive Learning [0.0]
生成支援型マルチモーダルクエリは入力音声のテキスト記述を生成し、マルチモーダルクエリを可能にする。我々は,AudioCaps,Clotho,Auto-ACDの実験を行い,現状の成果が得られたことを実証した。
論文参考訳（メタデータ） (2024-10-14T04:57:32Z)
AudioSetMix: Enhancing Audio-Language Datasets with LLM-Assisted Augmentations [1.2101820447447276]
近年,音声言語領域におけるマルチモーダル学習は大きな進歩を遂げている。しかし、音声学習は、画像言語タスクと比較して、限られたデータや低品質のデータによって困難に直面している。本手法は,音声クリップを自然言語ラベルと対応する音声信号処理操作で拡張することにより,音声キャプチャペアを体系的に生成する。このスケーラブルな方法は、テキストおよびオーディオ関連モデルの高品質なトレーニングデータセットであるAudioSetMixを生成する。
論文参考訳（メタデータ） (2024-05-17T21:08:58Z)
Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文参考訳（メタデータ） (2024-03-14T01:16:32Z)
Rethinking and Improving Multi-task Learning for End-to-end Speech Translation [51.713683037303035]
異なる時間とモジュールを考慮したタスク間の整合性について検討する。テキストエンコーダは、主にクロスモーダル変換を容易にするが、音声におけるノイズの存在は、テキストと音声表現の一貫性を妨げる。長さと表現の差を軽減し,モーダルギャップを橋渡しする,STタスクのための改良型マルチタスク学習(IMTL)手法を提案する。
論文参考訳（メタデータ） (2023-11-07T08:48:46Z)
Speed Co-Augmentation for Unsupervised Audio-Visual Pre-training [102.18680666349806]
本稿では,音声とビデオデータの再生速度をランダムに変更する高速化手法を提案する。実験の結果,提案手法は,バニラ音声・視覚的コントラスト学習と比較して,学習表現を著しく改善することがわかった。
論文参考訳（メタデータ） (2023-09-25T08:22:30Z)
AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。 AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文参考訳（メタデータ） (2023-06-22T14:37:54Z)
Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文参考訳（メタデータ） (2023-06-21T20:54:52Z)
MixSpeech: Cross-Modality Self-Learning with Audio-Visual Stream Mixup for Visual Speech Translation and Recognition [51.412413996510814]
視覚音声の訓練を正規化するために音声音声を利用する多目的自己学習フレームワークであるMixSpeechを提案する。 MixSpeechは雑音の多い環境での音声翻訳を強化し、AVMuST-TED上でのBLEUスコアを+1.4から+4.2に改善した。
論文参考訳（メタデータ） (2023-03-09T14:58:29Z)
Improving Natural-Language-based Audio Retrieval with Transfer Learning and Audio & Text Augmentations [7.817685358710508]
本稿では,録音やテキストによる記述を共有音声空間に投影するシステムを提案する。以上の結果から, 使用済み拡張戦略は過剰適合を低減し, 検索性能の向上を図っている。さらに、AudioCapsデータセットで事前トレーニングを行うことで、さらなる改善がもたらされることを示す。
論文参考訳（メタデータ） (2022-08-24T11:54:42Z)
Adaptive multilingual speech recognition with pretrained models [24.01587237432548]
本稿では,2つのモードに対して事前学習した2つのモデルの有効性について検討する。全体としては、純粋に教師付き学習よりも44%の改善が見られた。
論文参考訳（メタデータ） (2022-05-24T18:29:07Z)
Semi-supervised transfer learning for language expansion of end-to-end speech recognition models to low-resource languages [19.44975351652865]
低音源言語における音声認識精度向上のための3段階学習手法を提案する。我々は、翻訳学習、TS拡張、SSLを用いて、よく訓練された英語モデル、ラベルなしテキストコーパス、ラベルなしオーディオコーパスを利用する。第1パスにおけるモノトニック・チャンクワイド・アテンション(MoA)を用いた2パス音声認識システムでは,ベースラインに対するWERの42%削減を実現している。
論文参考訳（メタデータ） (2021-11-19T05:09:16Z)
Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks [20.316239155843963]
本稿では,音声表現学習手法を提案し,それを下流の音声非音声タスクに適用する。 AudioSetベンチマークでは、平均平均精度(mAP)スコアが0.415に達しています。
論文参考訳（メタデータ） (2021-10-14T12:32:40Z)
Deep Audio-Visual Learning: A Survey [53.487938108404244]
現在の音声・視覚学習タスクを4つのサブフィールドに分割する。本稿では,各サブフィールドに残る課題だけでなく,最先端の手法についても論じる。一般的に使用されるデータセットとパフォーマンスメトリクスを要約します。
論文参考訳（メタデータ） (2020-01-14T13:11:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。