Fugu-MT 論文翻訳(概要): AudioProtoPNet: An interpretable deep learning model for bird sound classification

論文の概要: AudioProtoPNet: An interpretable deep learning model for bird sound classification

arxiv url: http://arxiv.org/abs/2404.10420v1
Date: Tue, 16 Apr 2024 09:37:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-17 17:23:30.975606
Title: AudioProtoPNet: An interpretable deep learning model for bird sound classification
Title（参考訳）: AudioProtoPNet:鳥音分類のための解釈可能なディープラーニングモデル
Authors: René Heinrich, Bernhard Sick, Christoph Scholz,
Abstract要約: 本稿では,そのモデルアーキテクチャによる固有解釈性を提供する音声分類に,Prototypeal Part Network (ProtoPNet) を適用した。本手法は,特徴抽出のためのConvNeXtバックボーンアーキテクチャに基づいて,訓練データのスペクトログラムを用いて各鳥類のパターンを学習する。
参考スコア（独自算出の注目度）: 1.6298921134113031
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, scientists have proposed several deep learning models to monitor the diversity of bird species. These models can detect bird species with high accuracy by analyzing acoustic signals. However, traditional deep learning algorithms are black-box models that provide no insight into their decision-making process. For domain experts, such as ornithologists, it is crucial that these models are not only efficient, but also interpretable in order to be used as assistive tools. In this study, we present an adaption of the Prototypical Part Network (ProtoPNet) for audio classification that provides inherent interpretability through its model architecture. Our approach is based on a ConvNeXt backbone architecture for feature extraction and learns prototypical patterns for each bird species using spectrograms of the training data. Classification of new data is done by comparison with these prototypes in latent space, which simultaneously serve as easily understandable explanations for the model's decisions.
Abstract（参考訳）: 近年、鳥類の多様性を監視するための深層学習モデルが提案されている。これらのモデルは音響信号を解析することにより高精度に鳥種を検出することができる。しかし、従来のディープラーニングアルゴリズムは、意思決定プロセスに関する洞察を提供するブラックボックスモデルである。鳥類学者のようなドメインの専門家にとって、これらのモデルは効率的であるだけでなく、補助ツールとして使われるために解釈可能であることが重要である。本研究では,そのモデルアーキテクチャによる固有解釈性を提供する音声分類に,Prototypeal Part Network (ProtoPNet) を適用した。本手法は,特徴抽出のためのConvNeXtバックボーンアーキテクチャに基づいて,訓練データのスペクトログラムを用いて各鳥類の原型パターンを学習する。新しいデータの分類は、これらのプロトタイプを潜在空間で比較することで行われ、同時にモデルの判断に対する理解しやすい説明を提供する。

関連論文リスト

Representation-Regularized Convolutional Audio Transformer for Audio Understanding [53.092757178419355]
スクラッチからのブートストラップ表現は計算に高価で、しばしば収束するために広範囲のトレーニングを必要とします。本稿では,これらの課題に対処するための統合フレームワークであるConvolutional Audio Transformer (CAT)を提案する。
論文参考訳（メタデータ） (2026-01-29T12:16:19Z)
Learning Robust Spatial Representations from Binaural Audio through Feature Distillation [64.36563387033921]
データラベルを必要とせずに音声の頑健な空間表現を学習するために,特徴蒸留に基づく事前学習ステージの利用について検討する。実験により, 事前学習したモデルでは, 騒音および残響環境における性能が向上していることが示された。
論文参考訳（メタデータ） (2025-08-28T15:43:15Z)
Foundation Models for Bioacoustics -- a Comparative Review [0.9109149174920012]
本稿では, 生体音響基礎モデルについて, モデルアーキテクチャ, 事前学習計画, 訓練パラダイムなどの設計決定を徹底的に分析して検討する。 BEANSおよびBirdSetベンチマークから,分類タスクの選択基盤モデルを評価する。総合的な実験分析の結果,BirdSetベンチマークでは,大規模鳥の鳴き声データに基づく自己指導による学習が最高の成績を収めていることが明らかとなった。
論文参考訳（メタデータ） (2025-08-02T09:15:16Z)
The iNaturalist Sounds Dataset [60.157076990024606]
iNatSoundsは、5500種以上の音をキャプチャする23万のオーディオファイルのコレクションで、世界中で27,000人以上のレコーダーが貢献している。このデータセットは、鳥類、哺乳類、昆虫、虫類、両生類からの音を包含し、iNaturalistに提出された観察から得られたオーディオおよび種名を含む。我々は、次世代の公的なエンゲージメントアプリケーションを支えるこのデータに基づいて訓練されたモデルを構想し、大規模なオーディオコレクションの処理において生物学者、生態学者、土地利用管理者を支援する。
論文参考訳（メタデータ） (2025-05-31T02:07:37Z)
Pretraining Language Models to Ponder in Continuous Space [50.52734567589996]
単一のトークン生成ステップ内で,前処理を繰り返し呼び出すことによって,この思考プロセスを言語モデルに導入する。人間のアノテーションを使わずに、自己教師付き学習を通じて、この方法でモデルを学習できることが示される。
論文参考訳（メタデータ） (2025-05-27T03:47:33Z)
Unsupervised outlier detection to improve bird audio dataset labels [0.0]
非標的の鳥類の音は、ラベルノイズと呼ばれる相違点をデータセットにラベル付けする。本稿では,オーディオ前処理とデメンタリティ低減と教師なし外乱検出を併用したクリーニングプロセスを提案する。
論文参考訳（メタデータ） (2025-04-25T19:04:40Z)
Can Masked Autoencoders Also Listen to Birds? [2.430300340530418]
Masked Autoencoders (MAEs) は、リッチな意味表現を学習することで、音声分類において競合する結果を示した。汎用モデルは、きめ細かいオーディオドメインに直接適用しても、うまく一般化できない。この研究は、このドメインギャップを埋めるには、ドメイン固有の事前トレーニングデータ以上のものが必要であることを実証している。
論文参考訳（メタデータ） (2025-04-17T12:13:25Z)
A Bird Song Detector for improving bird identification through Deep Learning: a case study from Doñana [2.7924253850013416]
ドナ国立公園(西スペイン)における鳥声自動識別パイプラインの開発 9ヶ所の生息地から461分間の音声を手動でアノテートし,34の授業で3,749のアノテーションを得た。分類前のバード・ソング・ディテクターの適用により種識別が向上し、鳥類が検出されたセグメントのみを分析する場合、すべての分類モデルが改善された。
論文参考訳（メタデータ） (2025-03-19T13:19:06Z)
Semi-supervised classification of bird vocalizations [0.0]
鳥類の個体数の変化は生態系の広範な変化を示す可能性がある。時間重なり合う鳴き声を検出するための半教師付き音響鳥検知器を提案する。平均F0.5スコアは315のクラスで0.701で、110種の鳥類をホールドアウトテストセットで記録する。
論文参考訳（メタデータ） (2025-02-19T05:31:13Z)
BirdSet: A Large-Scale Dataset for Audio Classification in Avian Bioacoustics [2.2399415927517414]
$texttBirdSet$は、鳥のバイオ音響に焦点を当てたオーディオ分類のための大規模なベンチマークデータセットである。 $texttBirdSet$はAudioSetを上回り、1万近いクラスから6800時間以上録音する。我々は,3つの異なる学習シナリオにまたがる多ラベル分類において,よく知られた6つのDLモデルをベンチマークした。
論文参考訳（メタデータ） (2024-03-15T15:10:40Z)
Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文参考訳（メタデータ） (2024-03-14T01:16:32Z)
Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文参考訳（メタデータ） (2024-03-11T16:22:41Z)
Self-Supervised Learning for Few-Shot Bird Sound Classification [10.395255631261458]
音声における自己教師あり学習(SSL)は、様々な領域において大きな可能性を秘めている。本研究では,アノテーションを必要とせずに,音声録音から有意義な鳥の音の表現を抽出できることを実証する。
論文参考訳（メタデータ） (2023-12-25T22:33:45Z)
Exploring Meta Information for Audio-based Zero-shot Bird Classification [113.17261694996051]
本研究では,メタ情報を用いてゼロショット音声分類を改善する方法について検討する。我々は,多種多様なメタデータが利用可能であることから,鳥種を例として用いている。
論文参考訳（メタデータ） (2023-09-15T13:50:16Z)
How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources [117.6496550359768]
この研究は、オープンな命令追従データセットにおける命令チューニング言語モデルの最近の進歩を探求する。我々は、12の命令データセットに基づいて訓練された6.7Bから65Bのパラメータを含む、命令調整されたモデルの大規模なセットを提供する。それらの事実的知識、推論、多言語性、コーディング、そしてその後に続くオープン・エンド・インストラクションに基づいて評価する。
論文参考訳（メタデータ） (2023-06-07T19:59:23Z)
Machine Learning-based Classification of Birds through Birdsong [0.3908842679355254]
我々はMel Frequency Cepstral Coefficients (MFCC) と機械学習モデルを組み合わせてオーストラリアの鳥類を同定する。調査対象として選抜された30羽のうち,上位5羽の鳥の総合的精度は91%であった。鳥152種からなる、より困難で多様なオーディオファイルにモデルを適用すれば、精度は58%になる。
論文参考訳（メタデータ） (2022-12-09T06:20:50Z)
Revisiting Classifier: Transferring Vision-Language Models for Video Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。本研究では,映像分類作業における知識の伝達に着目した。予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文参考訳（メタデータ） (2022-07-04T10:00:47Z)
Few-shot Long-Tailed Bird Audio Recognition [3.8073142980733]
本研究では,音環境記録を解析するための音響検出・分類パイプラインを提案する。私たちのソリューションは、Kaggleで開催されたBirdCLEF 2022 Challengeで、807チームの18位を獲得しました。
論文参考訳（メタデータ） (2022-06-22T04:14:25Z)
Self-supervised models of audio effectively explain human cortical responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文参考訳（メタデータ） (2022-05-27T22:04:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。