Fugu-MT 論文翻訳(概要): A Sequential Self Teaching Approach for Improving Generalization in Sound Event Recognition

論文の概要: A Sequential Self Teaching Approach for Improving Generalization in Sound Event Recognition

arxiv url: http://arxiv.org/abs/2007.00144v1
Date: Tue, 30 Jun 2020 22:53:43 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-15 06:37:35.658364
Title: A Sequential Self Teaching Approach for Improving Generalization in Sound Event Recognition
Title（参考訳）: 音響イベント認識における一般化のための逐次自己指導手法
Authors: Anurag Kumar, Vamsi Krishna Ithapu
Abstract要約: 学習音に対する逐次自己学習手法を提案する。弱いラベル付きまたは/またはうるさいラベル付きデータから、悪い状況下での音の学習は困難である。提案手法は,与えられたモデリングシステムの一般化能力を向上する逐次段階学習プロセスである。
参考スコア（独自算出の注目度）: 11.559570255513217
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: An important problem in machine auditory perception is to recognize and detect sound events. In this paper, we propose a sequential self-teaching approach to learning sounds. Our main proposition is that it is harder to learn sounds in adverse situations such as from weakly labeled and/or noisy labeled data, and in these situations a single stage of learning is not sufficient. Our proposal is a sequential stage-wise learning process that improves generalization capabilities of a given modeling system. We justify this method via technical results and on Audioset, the largest sound events dataset, our sequential learning approach can lead to up to 9% improvement in performance. A comprehensive evaluation also shows that the method leads to improved transferability of knowledge from previously trained models, thereby leading to improved generalization capabilities on transfer learning tasks.
Abstract（参考訳）: 機械の聴覚知覚における重要な問題は、音事象を認識して検出することである。本稿では,学習音に対する逐次自己学習手法を提案する。我々の主な提案は、弱いラベル付きまたは/またはうるさいラベル付きデータから、悪い状況下での音の学習が困難であり、これらの場合、学習の単一の段階が不十分であるということである。本提案は,与えられたモデリングシステムの一般化能力を向上させる段階学習プロセスである。技術的結果を通じてこの方法を正当化し、最大のサウンドイベントデータセットであるaudiosetでは、シーケンシャルな学習アプローチが最大9%のパフォーマンス向上につながります。包括的評価により,従来訓練されていたモデルから知識の伝達性の向上が達成され,伝達学習タスクにおける一般化能力の向上がもたらされた。

関連論文リスト

Retrieval-augmented Prompt Learning for Pre-trained Foundation Models [101.13972024610733]
本稿では,記憶と一般化のバランスをとることを目的としたRetroPromptを提案する。従来のプロンプトメソッドとは異なり、RetroPromptは入力、トレーニング、推論ステージ全体にわたって検索メカニズムを組み込んでいる。提案手法の優れた性能を示すために,自然言語処理やコンピュータビジョンタスクにまたがる様々なデータセットに関する総合的な実験を行った。
論文参考訳（メタデータ） (2025-12-23T08:15:34Z)
Beyond Random Sampling: Efficient Language Model Pretraining via Curriculum Learning [23.900888224619]
カリキュラム学習は,初等・中等教育段階におけるコンバージェンスを継続的に改善することを示す。圧縮比、語彙の多様性、可読性は、設定間の効果的な難易度信号として同定する。
論文参考訳（メタデータ） (2025-06-12T21:06:57Z)
Reinforcement Learning via Implicit Imitation Guidance [49.88208134736617]
自然なアプローチは、訓練中の正規化や参照ポリシーの取得など、模倣学習の目的を取り入れることである。提案手法では,条件に付加されたノイズによる探索を導出するための先行データのみを用いて,明示的な行動クローニング制約の必要性を回避することを提案する。提案手法は、7つの模擬連続制御タスクにまたがるオフライン手法による事前強化学習よりも最大2～3倍向上する。
論文参考訳（メタデータ） (2025-06-09T07:32:52Z)
Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文参考訳（メタデータ） (2024-05-03T15:27:11Z)
Audio Contrastive based Fine-tuning [21.145936249583446]
本稿では,音声コントラストに基づくファインチューニング(AudioConFit)を,頑健な汎用性を特徴とする効率的なアプローチとして紹介する。様々な音声分類タスクに関する実証実験により,提案手法の有効性とロバスト性を実証した。
論文参考訳（メタデータ） (2023-09-21T08:59:13Z)
Pretraining Representations for Bioacoustic Few-shot Detection using Supervised Contrastive Learning [10.395255631261458]
バイオ音響応用において、ほとんどのタスクにはラベル付きトレーニングデータはほとんど含まれない。教師付きコントラスト学習フレームワークを用いてデータ拡張を活用することにより、スクラッチからリッチな特徴抽出器を学習することができることを示す。我々は検証セットで63.46%、テストセットで42.7%のFスコアを取得し、DCASEチャレンジで2位となった。
論文参考訳（メタデータ） (2023-09-02T09:38:55Z)
Improving Natural-Language-based Audio Retrieval with Transfer Learning and Audio & Text Augmentations [7.817685358710508]
本稿では,録音やテキストによる記述を共有音声空間に投影するシステムを提案する。以上の結果から, 使用済み拡張戦略は過剰適合を低減し, 検索性能の向上を図っている。さらに、AudioCapsデータセットで事前トレーニングを行うことで、さらなる改善がもたらされることを示す。
論文参考訳（メタデータ） (2022-08-24T11:54:42Z)
Label-Efficient Self-Supervised Speaker Verification With Information Maximization and Contrastive Learning [0.0]
生音声から直接表現を学習することによる話者検証のための自己教師型学習について検討する。我々のアプローチは、最近の情報学習フレームワークと集中的なデータ前処理ステップに基づいています。
論文参考訳（メタデータ） (2022-07-12T13:01:55Z)
Improving Noise Robustness of Contrastive Speech Representation Learning with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文参考訳（メタデータ） (2021-10-28T20:39:02Z)
UniSpeech-SAT: Universal Speech Representation Learning with Speaker Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。 SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文参考訳（メタデータ） (2021-10-12T05:43:30Z)
Improved Speech Emotion Recognition using Transfer Learning and Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。 SERの主な課題の1つは、データの不足である。本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文参考訳（メタデータ） (2021-08-05T10:39:39Z)
Cross-Referencing Self-Training Network for Sound Event Detection in Audio Mixtures [23.568610919253352]
本稿では,教師なしデータから擬似ラベルを生成するための半教師付き手法を提案する。 DESEDデータベースの「検証」と「公開評価」の双方に関するこれらの手法の結果は、半教師あり学習における最先端技術システムと比較して著しく改善された。
論文参考訳（メタデータ） (2021-05-27T18:46:59Z)
Recall and Learn: Fine-tuning Deep Pretrained Language Models with Less Forgetting [66.45372974713189]
本稿では,マルチタスク学習の概念を取り入れたリコール・アンド・ラーニング機構を提案し,事前学習タスクと下流タスクを共同で学習する。実験により,本手法はGLUEベンチマークの最先端性能を実現することが示された。我々はオープンソースのRecAdamを提供し、提案されたメカニズムをAdamに統合し、NLPコミュニティを施設化する。
論文参考訳（メタデータ） (2020-04-27T08:59:57Z)
Learning Not to Learn in the Presence of Noisy Labels [104.7655376309784]
ギャンブラーの損失と呼ばれる新しい種類の損失関数は、様々なレベルの汚職にまたがってノイズをラベル付けするのに強い堅牢性をもたらすことを示す。この損失関数によるトレーニングは、ノイズのあるラベルを持つデータポイントでの学習を"維持"することをモデルに促すことを示す。
論文参考訳（メタデータ） (2020-02-16T09:12:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。