Fugu-MT 論文翻訳(概要): How Class Ontology and Data Scale Affect Audio Transfer Learning

論文の概要: How Class Ontology and Data Scale Affect Audio Transfer Learning

arxiv url: http://arxiv.org/abs/2603.25476v1
Date: Thu, 26 Mar 2026 14:18:29 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-27 20:52:48.326685
Title: How Class Ontology and Data Scale Affect Audio Transfer Learning
Title（参考訳）: 授業オントロジーとデータスケールが音声伝達学習に与える影響
Authors: Manuel Milling, Andreas Triantafyllopoulos, Alexander Gebhard, Simon Rampp, Björn W. Schuller,
Abstract要約: トランスファーラーニングは、機械学習において重要な概念であり、人工知能ニューラルネットワークが大規模な事前学習データベースから恩恵を受けることができる。本稿では,AudioSetのサブセット上で,様々なモデル状態の事前学習を行うオーディオ・オーディオ・トランスファー学習について検討する。事前学習データにおけるサンプル数やクラス数の増加は、転送学習に肯定的な影響を及ぼすと報告した。
参考スコア（独自算出の注目度）: 86.30979869026778
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Transfer learning is a crucial concept within deep learning that allows artificial neural networks to benefit from a large pre-training data basis when confronted with a task of limited data. Despite its ubiquitous use and clear benefits, there are still many open questions regarding the inner workings of transfer learning and, in particular, regarding the understanding of when and how well it works. To that extent, we perform a rigorous study focusing on audio-to-audio transfer learning, in which we pre-train various model states on (ontology-based) subsets of AudioSet and fine-tune them on three computer audition tasks, namely acoustic scene recognition, bird activity recognition, and speech command recognition. We report that increasing the number of samples and classes in the pre-training data both have a positive impact on transfer learning. This is, however, generally surpassed by similarity between pre-training and the downstream task, which can lead the model to learn comparable features.
Abstract（参考訳）: トランスファーラーニング(transfer learning)は、人工知能において重要な概念であり、限られたデータタスクに直面した場合に、人工知能がトレーニング済みの大規模なデータベースから恩恵を受けることができる。ユビキタスな利用と明確なメリットにもかかわらず、トランスファーラーニングの内部動作、特にそれがいつどのように機能するかの理解に関して、まだ多くのオープンな疑問が残っている。そこで我々は,音響シーン認識,鳥の活動認識,音声コマンド認識という3つのコンピュータオーディションタスクにおいて,AudioSetの(オントロジーに基づく)サブセットに対して,様々なモデルステートを事前訓練し,それらを微調整する,オーディオからオーディオへの伝達学習に焦点を当てた厳密な研究を行う。事前学習データにおけるサンプル数やクラス数の増加は、転送学習に肯定的な影響を及ぼすと報告した。しかし、これは一般的に、事前トレーニングと下流タスクの類似性によって超えられ、モデルが同等の機能を学ぶことができる。

関連論文リスト

Biomimetic Frontend for Differentiable Audio Processing [5.13105998753022]
従来の説明可能な信号処理アプローチとディープラーニングフレームワークを組み合わせられるように、人間の聴覚の古典的なモデルを構築し、それを識別可能にする。これにより、控えめな量のデータで簡単にトレーニングできる表現的で説明可能なモデルにたどり着くことができます。その結果, 学習データが少ない場合でも, 計算効率やロバスト性において, 識別可能なモデルがブラックボックスアプローチを超越していることが判明した。
論文参考訳（メタデータ） (2024-09-13T17:23:42Z)
Sequential Contrastive Audio-Visual Learning [12.848371604063168]
本稿では,非集約的表現空間に基づく実例を対比した逐次コントラスト型音声視覚学習(SCAV)を提案する。 VGGSoundとMusicのデータセットによる実験は、SCAVの有効性を実証している。また、SCAVでトレーニングされたモデルが、検索に使用されるメトリックに関して、かなりの柔軟性を示すことを示す。
論文参考訳（メタデータ） (2024-07-08T09:45:20Z)
ASiT: Local-Global Audio Spectrogram vIsion Transformer for Event Classification [42.95038619688867]
ASiTは、グループマスク付きモデル学習と自己蒸留を用いて、局所的およびグローバルな文脈情報をキャプチャする、新しい自己教師型学習フレームワークである。我々は、音声イベント分類、キーワードスポッティング、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
論文参考訳（メタデータ） (2022-11-23T18:21:09Z)
Deep Feature Learning for Medical Acoustics [78.56998585396421]
本研究の目的は,医療音響の課題における学習内容の比較である。ヒトの呼吸音と心臓の鼓動を健康的または病態の影響の2つのカテゴリに分類する枠組みが実装されている。
論文参考訳（メタデータ） (2022-08-05T10:39:37Z)
Self-Supervised Learning for speech recognition with Intermediate layer supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。 ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。 LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文参考訳（メタデータ） (2021-12-16T10:45:05Z)
Preliminary study on using vector quantization latent spaces for TTS/VC systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文参考訳（メタデータ） (2021-06-25T07:51:35Z)
Do sound event representations generalize to other audio tasks? A case study in audio transfer learning [20.572846660950812]
本稿では,大規模音響イベント検出データセットを用いて学習したニューラルネットワークから得られた音声表現の伝達学習能力について検討する。このような単純な線形移動は、下流のタスクで高い性能を達成するのに十分強力であることを示す。
論文参考訳（メタデータ） (2021-06-21T18:04:59Z)
What is being transferred in transfer learning? [51.6991244438545]
事前訓練した重量からトレーニングを行うと、モデルは損失景観の同じ流域に留まることを示す。事前学習した重みからトレーニングする場合、モデルは損失ランドスケープの同じ流域に留まり、そのようなモデルの異なるインスタンスは特徴空間と類似しており、パラメータ空間は近接している。
論文参考訳（メタデータ） (2020-08-26T17:23:40Z)
A Sequential Self Teaching Approach for Improving Generalization in Sound Event Recognition [11.559570255513217]
学習音に対する逐次自己学習手法を提案する。弱いラベル付きまたは/またはうるさいラベル付きデータから、悪い状況下での音の学習は困難である。提案手法は,与えられたモデリングシステムの一般化能力を向上する逐次段階学習プロセスである。
論文参考訳（メタデータ） (2020-06-30T22:53:43Z)
Inter- and Intra-domain Knowledge Transfer for Related Tasks in Deep Character Recognition [2.320417845168326]
ImageNetデータセットでディープニューラルネットワークを事前トレーニングすることは、ディープラーニングモデルをトレーニングするための一般的なプラクティスである。 1つのタスクで事前トレーニングを行い、新しいタスクで再トレーニングするテクニックは、トランスファーラーニング(transfer learning)と呼ばれる。本稿では,文字認識タスクにおけるDeep Transfer Learningの有効性について分析する。
論文参考訳（メタデータ） (2020-01-02T14:18:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。