論文の概要: Multi-Format Contrastive Learning of Audio Representations
- arxiv url: http://arxiv.org/abs/2103.06508v1
- Date: Thu, 11 Mar 2021 07:13:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-12 14:34:15.937130
- Title: Multi-Format Contrastive Learning of Audio Representations
- Title(参考訳): 音声表現の多形式コントラスト学習
- Authors: Luyu Wang, Aaron van den Oord
- Abstract要約: コントラスト学習フレームワークを用いた音声表現の学習について検討する。
このマルチフォーマット戦略によるシングルフォーマット戦略による大きな利益が得られます。
下流のAudioSetとESC-50の分類タスクでは、オーディオのみのアプローチで新しい最先端の結果が得られる。
- 参考スコア(独自算出の注目度): 4.365720395124051
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances suggest the advantage of multi-modal training in comparison
with single-modal methods. In contrast to this view, in our work we find that
similar gain can be obtained from training with different formats of a single
modality. In particular, we investigate the use of the contrastive learning
framework to learn audio representations by maximizing the agreement between
the raw audio and its spectral representation. We find a significant gain using
this multi-format strategy against the single-format counterparts. Moreover, on
the downstream AudioSet and ESC-50 classification task, our audio-only approach
achieves new state-of-the-art results with a mean average precision of 0.376
and an accuracy of 90.5%, respectively.
- Abstract(参考訳): 近年の進歩は、シングルモーダル法と比較してマルチモーダルトレーニングの利点を示唆している。
この見解とは対照的に、我々の研究では、同様の利益は単一のモダリティの異なる形式で訓練することで得られる。
特に,生音声とそのスペクトル表現との一致を最大化することにより,音声表現の学習におけるコントラスト学習フレームワークの利用について検討する。
このマルチフォーマット戦略によるシングルフォーマット戦略による大きな利益が得られます。
さらに,下流オーディオセットとesc-50分類タスクにおいて,音声のみの手法により,平均精度0.376,精度90.5%の新たな最先端結果が得られた。
関連論文リスト
- Weakly-supervised Audio Separation via Bi-modal Semantic Similarity [21.610354683236885]
既存のmix-and-separateベースのメソッドは、マルチソースのトレーニングミックスで大幅にパフォーマンス低下する。
そこで本研究では,既存の教師なしフレームワークを拡張して,単一ソース信号のターゲットモダリティを分離する汎用バイモーダル分離フレームワークを提案する。
我々のフレームワークは,ベースライン上でのSDR(Signal-to-Distortion Ratio)で71%向上し,教師付き学習性能の97.5%に達することを示す。
論文 参考訳(メタデータ) (2024-04-02T08:59:58Z) - EquiAV: Leveraging Equivariance for Audio-Visual Contrastive Learning [36.012107899738524]
音声・視覚のコントラスト学習に等価性を利用する新しいフレームワークであるEquiAVを紹介する。
我々のアプローチは、共有注意に基づく変換予測器によって促進される音声視覚学習への同値性の拡張から始まる。
多様な拡張から代表的な埋め込みへの機能の集約を可能にし、堅牢な監視を可能にします。
論文 参考訳(メタデータ) (2024-03-14T15:44:19Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。
この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。
また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文 参考訳(メタデータ) (2024-02-04T03:02:35Z) - Audio Contrastive based Fine-tuning [21.145936249583446]
本稿では,音声コントラストに基づくファインチューニング(AudioConFit)を,頑健な汎用性を特徴とする効率的なアプローチとして紹介する。
様々な音声分類タスクに関する実証実験により,提案手法の有効性とロバスト性を実証した。
論文 参考訳(メタデータ) (2023-09-21T08:59:13Z) - AudioFormer: Audio Transformer learns audio feature representations from
discrete acoustic codes [6.375996974877916]
離散音響符号の取得により音声特徴表現を学習するAudioFormerという手法を提案する。
以上の結果から,AudioFormerはモノモーダル音声分類モデルに比べて性能が大幅に向上したことが示された。
論文 参考訳(メタデータ) (2023-08-14T15:47:25Z) - On Robustness in Multimodal Learning [75.03719000820388]
マルチモーダル学習は、ビデオ、オーディオ、テキストなどの複数の入力モダリティの学習として定義される。
本稿では,一般的なマルチモーダル表現学習手法の体系的解析を行うためのマルチモーダルロバストネスフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-10T05:02:07Z) - Accommodating Audio Modality in CLIP for Multimodal Processing [48.83906067348211]
視覚言語モデルCLIPを拡張し、視覚言語モデルAudioのマルチモーダル処理におけるオーディオモダリティに対応する。
具体的には、モーダル間およびモーダル内コントラスト学習を用いて、オーディオと他のモーダル間の相関について検討する。
提案するCLIP4VLAモデルは,ビデオ検索やビデオキャプションなど,さまざまな下流タスクで検証される。
論文 参考訳(メタデータ) (2023-03-12T06:57:01Z) - Large Scale Audiovisual Learning of Sounds with Weakly Labeled Data [9.072124914105325]
本稿では、弱いラベル付きビデオ記録から音を認識することを学習するオーディオ視覚融合モデルを提案する。
大規模音響イベントデータセットであるAudioSetの実験は,提案モデルの有効性を実証する。
論文 参考訳(メタデータ) (2020-05-29T01:30:14Z) - Audio-Visual Instance Discrimination with Cross-Modal Agreement [90.95132499006498]
本稿では,映像と音声から音声・視覚表現を学習するための自己教師型学習手法を提案する。
モーダル内識別よりも、モーダル間識別を最適化することが、ビデオやオーディオから優れた表現を学ぶ上で重要であることを示す。
論文 参考訳(メタデータ) (2020-04-27T16:59:49Z) - Curriculum Audiovisual Learning [113.20920928789867]
本稿では,ソフトクラスタリングモジュールを音響・視覚コンテンツ検出装置として導入するフレキシブル・オーディオビジュアル・モデルを提案する。
音声視覚学習の難しさを軽減するため,簡単なシーンから複雑なシーンまでモデルを訓練する新しい学習戦略を提案する。
本手法は,外的視覚的監督に言及することなく,音の分離において同等の性能を示す。
論文 参考訳(メタデータ) (2020-01-26T07:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。