Fugu-MT 論文翻訳(概要): Multi-layer attentive probing improves transfer of audio representations for bioacoustics

論文の概要: Multi-layer attentive probing improves transfer of audio representations for bioacoustics

arxiv url: http://arxiv.org/abs/2605.10494v1
Date: Mon, 11 May 2026 12:52:29 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-13 02:24:05.564614
Title: Multi-layer attentive probing improves transfer of audio representations for bioacoustics
Title（参考訳）: 多層減衰探傷法による生体音響の音響表現の伝達改善
Authors: Marius Miron, David Robinson, Masato Hagiwara, Titouan Parcollet, Jules Cauzinille, Gagan Narula, Milad Alizadeh, Ellen Gilsenan-McMahon, Sara Keen, Emmanuel Chemla, Benjamin Hoffman, Maddie Cusimano, Diane Kim, Felix Effenberger, Jane K. Lawton, Aza Raskin, Olivier Pietquin, Matthieu Geist,
Abstract要約: 機械学習モデルから学習したヘッドマップ表現を下流タスクラベルに変換する。ほとんどのバイオ音響ベンチマークは、最終エンコーダ層上の線形層のような固定された低容量プローブを使用する。時間情報を利用した大規模プローブヘッドの性能が向上したことを示す。
参考スコア（独自算出の注目度）: 37.7223600471692
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Probing heads map the representations learned from audio by a machine learning model to downstream task labels and are a key component in evaluating representation learning. Most bioacoustic benchmarks use a fixed, low-capacity probe, such as a linear layer on the final encoder layer. While this standardization enables model comparisons, it may bias results by overlooking the interaction between encoder features and probe design. In this work, we systematically study different probing strategies across two bioacoustic benchmarks, BEANs and BirdSet. We evaluate last- and multi-layer probing, across linear and attention probes. We show that larger probe heads that leverage time information have superior performance. Our results suggest that current benchmarks may misrepresent encoder quality when relying on a last-layer probing setup. Multi-layer probing improves downstream task performance across all tested models, while attention probing has superior performance to linear probing for transformer models.
Abstract（参考訳）: プローブヘッドは、機械学習モデルによって学習された表現を下流のタスクラベルにマッピングし、表現学習を評価する上で重要な要素である。ほとんどのバイオ音響ベンチマークは、最終エンコーダ層上の線形層のような固定された低容量プローブを使用する。この標準化はモデルの比較を可能にするが、エンコーダの特徴とプローブ設計の相互作用を見越すことで、バイアスが生じる可能性がある。本研究では, BEANとBirdSetの2つのバイオ音響ベンチマークを用いて, 異なる探索手法を体系的に検討する。線形及び注目プローブを用いた最終層および多層プローブの評価を行った。時間情報を利用した大規模プローブヘッドの性能が向上したことを示す。以上の結果から,現行のベンチマークでは,最終層探索設定に依存する場合,エンコーダの品質が低下する可能性が示唆された。マルチレイヤ・プロブリングは、全ての試験モデルにおけるダウンストリーム・タスク性能を改善する一方、アテンション・プロブリングはトランスモデルの線形・プロブリングよりも優れた性能を持つ。

関連論文リスト

Real-World Point Tracking with Verifier-Guided Pseudo-Labeling [57.82074913456958]
本稿では,トラッカー予測の信頼性を学習し,擬似ラベル生成を導くメタモデルである検証器を紹介する。提案手法は,従来の自己学習手法よりも少ないデータを必要とする一方で,最先端の結果が得られる。
論文参考訳（メタデータ） (2026-03-12T17:40:52Z)
Representation-Regularized Convolutional Audio Transformer for Audio Understanding [53.092757178419355]
スクラッチからのブートストラップ表現は計算に高価で、しばしば収束するために広範囲のトレーニングを必要とします。本稿では,これらの課題に対処するための統合フレームワークであるConvolutional Audio Transformer (CAT)を提案する。
論文参考訳（メタデータ） (2026-01-29T12:16:19Z)
Unveiling and Mitigating Bias in Audio Visual Segmentation [9.427676046134374]
コミュニティ研究者は、物体のマスクの音質を改善するために、様々な高度なオーディオ視覚セグメンテーションモデルを開発した。これらのモデルによって作られたマスクは、最初は可塑性に見えるかもしれないが、しばしば誤った接地論理を持つ異常を示す。我々はこれを、複雑なオーディオ・視覚的グラウンドよりも単純な学習信号として、現実世界固有の嗜好と分布に帰着する。
論文参考訳（メタデータ） (2024-07-23T16:55:04Z)
Audio Contrastive-based Fine-tuning: Decoupling Representation Learning and Classification [26.82307246813389]
本稿では、下流評価から表現の洗練を分離する2段階のアンタングル化フレームワークを提案する。まず、モデルの埋め込み空間の幾何学的構造を明示的に改善するために「コントラストチューニング」ステージを用いる。次に、幾何学的観点からこれらの洗練された表現の質を評価するために、双対プローブ評価プロトコルを導入する。
論文参考訳（メタデータ） (2023-09-21T08:59:13Z)
Improving Primate Sounds Classification using Binary Presorting for Deep Learning [6.044912425856236]
本稿では,MELスペクトル表現のサブセグメンテーションを初めてリラベルする一般化アプローチを提案する。バイナリプリソートと分類の両方において、畳み込みニューラルネットワーク(CNN)と様々なデータ拡張技術を利用する。本研究は,異なる霊長類種の音の分類を課題とする,挑戦的なTextitComparE 2021データセットについて,本手法の結果を紹介する。
論文参考訳（メタデータ） (2023-06-28T09:35:09Z)
SynBench: Task-Agnostic Benchmarking of Pretrained Representations using Synthetic Data [78.21197488065177]
近年、下流のタスクで大規模なデータで事前訓練された微調整大型モデルが成功し、ディープラーニングにおける重要なパラダイムシフトにつながった。本稿では,合成データを用いて事前学習した表現の質を測定するためのタスク非依存フレームワークであるtextitSynBenchを提案する。
論文参考訳（メタデータ） (2022-10-06T15:25:00Z)
Self-supervised Speaker Diarization [19.111219197011355]
本研究では、話者ダイアリゼーションのための教師なしディープラーニングモデルを提案する。話者埋め込みは、同一話者と推定される隣接セグメントのペアを使用して、自己教師付きで訓練されたエンコーダによって表現される。
論文参考訳（メタデータ） (2022-04-08T16:27:14Z)
Generalizing Face Forgery Detection with High-frequency Features [63.33397573649408]
現在のCNNベースの検出器は、メソッド固有の色テクスチャに過度に適合するため、一般化に失敗する傾向にある。フェースフォージェリ検出に高周波雑音を用いることを提案する。 1つは、複数のスケールで高周波ノイズを抽出するマルチスケールの高周波特徴抽出モジュールである。 2つ目は、低レベルRGB特徴抽出器を導く残差誘導空間注意モジュールで、新しい視点からフォージェリートレースにもっと集中する。
論文参考訳（メタデータ） (2021-03-23T08:19:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。