論文の概要: BAT: Better Audio Transformer Guided by Convex Gated Probing
- arxiv url: http://arxiv.org/abs/2602.16305v1
- Date: Wed, 18 Feb 2026 09:37:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.561974
- Title: BAT: Better Audio Transformer Guided by Convex Gated Probing
- Title(参考訳): BAT:コンベックス・ゲーテッド・プロービングで案内されるオーディオ・トランスフォーマー
- Authors: Houtan Ghaffari, Lukas Rauch, Christoph Scholz, Paul Devos,
- Abstract要約: コンピュータビジョンにおいて、自己教師あり学習(SSL)埋め込みを忠実に評価するために、探索は広く採用されている。
オーディオSSLモデルは依然として微調整に依存している。
本稿では,音声の微調整と探究のギャップを大幅に埋めるプロトタイプベースの手法であるConvex Gated Probing (CGP)を紹介する。
- 参考スコア(独自算出の注目度): 2.705930097524593
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Probing is widely adopted in computer vision to faithfully evaluate self-supervised learning (SSL) embeddings, as fine-tuning may misrepresent their inherent quality. In contrast, audio SSL models still rely on fine-tuning because simple probing fails to unlock their full potential and alters their rankings when competing for SOTA on AudioSet. Hence, a robust and efficient probing mechanism is required to guide the trajectory of audio SSL towards reliable and reproducible methods. We introduce Convex Gated Probing (CGP), a prototype-based method that drastically closes the gap between fine-tuning and probing in audio. CGP efficiently utilizes all frozen layers via a gating mechanism and exposes the location of latent task-relevant information. Guided by CGP, we rework the entire SSL pipeline of current SOTA audio models that use legacy implementations of prior SSL methods. By refining data preprocessing, model architecture, and pre-training recipe, we introduce Better Audio Transformer (BAT), and establish new SOTA on audio benchmarks.
- Abstract(参考訳): 自己教師あり学習(SSL)の埋め込みを忠実に評価するためにコンピュータビジョンで広く採用されている。
対照的に、オーディオSSLモデルは依然として微調整に依存している。
したがって、オーディオSSLの軌道を信頼性と再現性のある方法へと導くために、堅牢で効率的な探索機構が必要である。
本稿では,音声の微調整と探究のギャップを大幅に埋めるプロトタイプベースの手法であるConvex Gated Probing (CGP)を紹介する。
CGPは、ゲーティング機構を介してすべての凍結層を効率的に利用し、潜在タスク関連情報の場所を明らかにする。
CGPによってガイドされ、従来のSSLメソッドのレガシ実装を使用する、現在のSOTAオーディオモデルのSSLパイプライン全体を再構築しました。
データ前処理、モデルアーキテクチャ、事前学習のレシピを精錬することにより、BAT(Better Audio Transformer)を導入し、オーディオベンチマーク上で新しいSOTAを確立する。
関連論文リスト
- Representation-Regularized Convolutional Audio Transformer for Audio Understanding [53.092757178419355]
スクラッチからのブートストラップ表現は計算に高価で、しばしば収束するために広範囲のトレーニングを必要とします。
本稿では,これらの課題に対処するための統合フレームワークであるConvolutional Audio Transformer (CAT)を提案する。
論文 参考訳(メタデータ) (2026-01-29T12:16:19Z) - SSLAM: Enhancing Self-Supervised Models with Audio Mixtures for Polyphonic Soundscapes [9.639849424773614]
Self-Supervised Learning from Audio Mixtures (SSLAM) は、ポリフォニックデータから学習するモデルの能力を改善するために設計された。
SSLAMはAudioSet-2M(AS-2M)を最大3.9%改善し、平均精度(mAP)は50.2である。
ポリフォニックデータセットでは、SSLAMは新しいSOTAを線形評価と微調整の両方で設定し、パフォーマンスは最大9.1%向上した。
論文 参考訳(メタデータ) (2025-06-13T20:48:46Z) - From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。
これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。
本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - Compact Speech Translation Models via Discrete Speech Units Pretraining [75.27125825975858]
本手法は,SSSモデルから抽出した離散音声単位(DSU)に基づく。
本手法では, コンパクト化に加えて, 低リソース設定にも適用できるため, 文字起こしは不要である。
論文 参考訳(メタデータ) (2024-02-29T16:36:51Z) - EAT: Self-Supervised Pre-Training with Efficient Audio Transformer [2.443213094810588]
EAT(Efficient Audio Transformer)は、画像モダリティにおけるData2vec 2.0とオーディオモダリティにおけるAudio-MAEの成功に触発されている。
Utterance-Frame Objective (UFO) は音響イベントのモデリング能力を高めるために設計された。
実験の結果、EATは様々な音声関連タスクにおいて、最先端(SOTA)性能を達成することが示された。
論文 参考訳(メタデータ) (2024-01-07T14:31:27Z) - Leveraging Pre-trained AudioLDM for Sound Generation: A Benchmark Study [33.10311742703679]
本稿では,AudioLDMを用いた音声生成における事前学習のメリットについて検討する。
本研究では,事前学習したAudioLDMの利点,特にデータ共有シナリオの利点を実証する。
様々な頻繁に使用されるデータセットに対して,音生成タスクをベンチマークする。
論文 参考訳(メタデータ) (2023-03-07T12:49:45Z) - BEATs: Audio Pre-Training with Acoustic Tokenizers [77.8510930885778]
自己教師付き学習(SSL)は、ここ数年、言語、ビジョン、スピーチ、オーディオドメインで目撃されてきた。
本稿では、音声変換器から双方向表現を学習するための反復型オーディオ事前学習フレームワークBEATを提案する。
最初のイテレーションでは、ランダムプロジェクションを音響トークンとして使用し、マスクとラベル予測の方法でオーディオSSLモデルをトレーニングする。
そこで,本研究では,事前学習あるいは微調整した音声SSLモデルから意味知識を抽出することにより,次のイテレーションのための音響トークン化装置を訓練する。
論文 参考訳(メタデータ) (2022-12-18T10:41:55Z) - Deploying self-supervised learning in the wild for hybrid automatic
speech recognition [20.03807843795386]
自己教師付き学習(SSL)法は自動音声認識(ASR)において非常に成功したことが証明されている。
我々は、データ前処理からストリーミングハイブリッドASRモデルのデプロイまで、SSLの未転写オーディオデータを利用する方法を示す。
論文 参考訳(メタデータ) (2022-05-17T19:37:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。