論文の概要: Audio Contrastive based Fine-tuning
- arxiv url: http://arxiv.org/abs/2309.11895v1
- Date: Thu, 21 Sep 2023 08:59:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 16:11:48.210436
- Title: Audio Contrastive based Fine-tuning
- Title(参考訳): 音響コントラストに基づくファインチューニング
- Authors: Yang Wang, Qibin Liang, Chenghao Xiao, Yizhi Li, Noura Al Moubayed,
Chenghua Lin
- Abstract要約: 本稿では,音声コントラストに基づくファインチューニング(AudioConFit)を,頑健な汎用性を特徴とする効率的なアプローチとして紹介する。
様々な音声分類タスクに関する実証実験により,提案手法の有効性とロバスト性を実証した。
- 参考スコア(独自算出の注目度): 21.145936249583446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio classification plays a crucial role in speech and sound processing
tasks with a wide range of applications. There still remains a challenge of
striking the right balance between fitting the model to the training data
(avoiding overfitting) and enabling it to generalise well to a new domain.
Leveraging the transferability of contrastive learning, we introduce Audio
Contrastive-based Fine-tuning (AudioConFit), an efficient approach
characterised by robust generalisability. Empirical experiments on a variety of
audio classification tasks demonstrate the effectiveness and robustness of our
approach, which achieves state-of-the-art results in various settings.
- Abstract(参考訳): 音声分類は幅広い用途で音声処理や音声処理において重要な役割を担っている。
モデルのトレーニングデータへの適合(オーバーフィッティングの回避)と、新たなドメインへの一般化との適切なバランスを打つという課題はまだ残っている。
コントラスト学習の伝達可能性を活用して,頑健な一般性に特徴付けられる効率的なアプローチであるオーディオコントラストベースファインチューニング(AudioConFit)を導入する。
様々な音声分類タスクにおける経験的実験により,様々な設定で最新の結果を得る手法の有効性と頑健性が示された。
関連論文リスト
- Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning [55.2480439325792]
大規模な音声言語モデル (LALM) は、音声および音声情報の理解と推論に優れた能力を示している。
これらのモデルは、既存の音のイベントを幻覚させ、音のイベントの順序を誤認し、誤って音源を帰属させるなど、依然として課題に直面している。
論文 参考訳(メタデータ) (2024-10-21T15:55:27Z) - Multimodal Imbalance-Aware Gradient Modulation for Weakly-supervised
Audio-Visual Video Parsing [107.031903351176]
弱分離型音声視覚ビデオ解析(WS-AVVP)は、音声、視覚および音声視覚イベントインスタンスの時間的範囲をローカライズすることを目的としている。
WS-AVVPは、トレーニング用にビデオレベルのカテゴリラベルのみを使用して、対応するイベントカテゴリを特定することを目的としている。
論文 参考訳(メタデータ) (2023-07-05T05:55:10Z) - Multi-source Domain Adaptation for Text-independent Forensic Speaker
Recognition [36.83842373791537]
話者認識システムを新しい環境に適応させることは、良好な性能モデルを改善するために広く使われている手法である。
従来の研究では、複数の音響領域からトレーニングデータを収集するより実践的なシナリオを無視した単一ドメイン適応に焦点が当てられていた。
複数の音響領域にまたがる適応性能を高めるために,3つの新しい適応手法を提案する。
論文 参考訳(メタデータ) (2022-11-17T22:11:25Z) - Inference and Denoise: Causal Inference-based Neural Speech Enhancement [83.4641575757706]
本研究では、雑音の存在を介入としてモデル化することにより、因果推論パラダイムにおける音声強調(SE)課題に対処する。
提案した因果推論に基づく音声強調(CISE)は,ノイズ検出器を用いて間欠雑音音声中のクリーンフレームとノイズフレームを分離し,両フレームセットを2つのマスクベース拡張モジュール(EM)に割り当て,ノイズ条件SEを実行する。
論文 参考訳(メタデータ) (2022-11-02T15:03:50Z) - Noise-Tolerant Learning for Audio-Visual Action Recognition [31.641972732424463]
ビデオデータセットは通常、粗い注釈付きまたはインターネットから収集される。
本稿では,雑音ラベルと雑音対応の両方に対して,反干渉モデルパラメータを求めるための耐雑音性学習フレームワークを提案する。
本手法は,動作認識モデルのロバスト性を大幅に向上し,ベースラインをクリアマージンで越える。
論文 参考訳(メタデータ) (2022-05-16T12:14:03Z) - Robust Audio-Visual Instance Discrimination [79.74625434659443]
音声・映像表現を学習するための自己指導型学習法を提案する。
視聴覚インスタンスの識別の問題に対処し、転送学習パフォーマンスを向上させます。
論文 参考訳(メタデータ) (2021-03-29T19:52:29Z) - Spectrum-Guided Adversarial Disparity Learning [52.293230153385124]
本稿では,新たなエンド・ツー・エンドの知識指向学習フレームワークを提案する。
2つの競合符号化分布を用いてクラス条件付きクラス内不一致を表現し、学習された不一致を識別することで精製された潜伏符号を学習する。
4つのHARベンチマークデータセットに対する実験により,提案手法の頑健性と,最先端の手法による一般化が実証された。
論文 参考訳(メタデータ) (2020-07-14T05:46:27Z) - A Sequential Self Teaching Approach for Improving Generalization in
Sound Event Recognition [11.559570255513217]
学習音に対する逐次自己学習手法を提案する。
弱いラベル付きまたは/またはうるさいラベル付きデータから、悪い状況下での音の学習は困難である。
提案手法は,与えられたモデリングシステムの一般化能力を向上する逐次段階学習プロセスである。
論文 参考訳(メタデータ) (2020-06-30T22:53:43Z) - COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio
Representations [32.456824945999465]
本稿では,学習した音声とその関連タグの潜在表現を調整し,音声表現を学習する手法を提案する。
組込みモデルの性能評価を行い,その性能を3つの異なるタスクにおける特徴抽出器として評価した。
論文 参考訳(メタデータ) (2020-06-15T13:17:18Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。