論文の概要: Perch 2.0 transfers 'whale' to underwater tasks
- arxiv url: http://arxiv.org/abs/2512.03219v1
- Date: Tue, 02 Dec 2025 20:49:41 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:05:00.460663
- Title: Perch 2.0 transfers 'whale' to underwater tasks
- Title(参考訳): Perch 2.0が水中作業に「鯨」を転送
- Authors: Andrea Burns, Lauren Harrell, Bart van Merriënboer, Vincent Dumoulin, Jenny Hamer, Tom Denton,
- Abstract要約: Perch 2.0は、14,597種の生物音響基盤モデルである。
Perch 2.0は海産哺乳動物のオーディオや授業をトレーニングデータに含まないので,海産哺乳動物および水中オーディオタスクにおけるPerch 2.0の性能を評価する。
- 参考スコア(独自算出の注目度): 6.216539628488371
- License:
- Abstract: Perch 2.0 is a supervised bioacoustics foundation model pretrained on 14,597 species, including birds, mammals, amphibians, and insects, and has state-of-the-art performance on multiple benchmarks. Given that Perch 2.0 includes almost no marine mammal audio or classes in the training data, we evaluate Perch 2.0 performance on marine mammal and underwater audio tasks through few-shot transfer learning. We perform linear probing with the embeddings generated from this foundation model and compare performance to other pretrained bioacoustics models. In particular, we compare Perch 2.0 with previous multispecies whale, Perch 1.0, SurfPerch, AVES-bio, BirdAVES, and Birdnet V2.3 models, which have open-source tools for transfer-learning and agile modeling. We show that the embeddings from the Perch 2.0 model have consistently high performance for few-shot transfer learning, generally outperforming alternative embedding models on the majority of tasks, and thus is recommended when developing new linear classifiers for marine mammal classification with few labeled examples.
- Abstract(参考訳): Perch 2.0は、鳥類、哺乳類、両生類、昆虫を含む14,597種で事前訓練された生物音響基盤モデルであり、複数のベンチマークで最先端のパフォーマンスを持つ。
Perch 2.0は, 海産哺乳類のオーディオや授業をほとんど含まないので, 海産哺乳動物および水中オーディオにおけるPerch 2.0の性能を, 数発の転写学習により評価する。
この基礎モデルから生成された埋め込みを用いて線形探索を行い、他の事前学習された生体音響モデルと比較する。
特に、トランスファーラーニングとアジャイルモデリングのオープンソースツールを備えたPerch 2.0と、以前の多種のクジラ、Perch 1.0、SurfPerch、AVES-bio、BirdAVES、Birdnet V2.3モデルを比較します。
Perch 2.0 モデルからの埋め込みは,数発の移動学習において一貫して高い性能を示し,ほとんどのタスクにおいて代替埋め込みモデルよりも優れており,ほとんどラベル付き例のない海洋哺乳動物分類のための新しい線形分類器を開発する際には推奨される。
関連論文リスト
- Moirai 2.0: When Less Is More for Time Series Forecasting [91.36760228926214]
Moirai 2.0は、36Mシリーズの新しいコーパスで訓練されたデコーダのみの基礎モデルである。
これは、精度、速度、モデルサイズの間の強いトレードオフを達成しつつ、事前訓練された上位モデルの1つにランク付けします。
効率性とモデルサイズに関しては、Moirai 2.0は前バージョンであるMoirai 1.0-Largeの2倍の速度と30倍の小型である。
論文 参考訳(メタデータ) (2025-11-12T12:15:35Z) - FishAI 2.0: Marine Fish Image Classification with Multi-modal Few-shot Learning [4.649981516403062]
FishAI 2.0は、マルチモーダルな数ショットのディープラーニング技術と、データ拡張のための画像生成を統合している。
FishAI 2.0の精度は91.67パーセント、Top-5の精度は97.97パーセントである。
論文 参考訳(メタデータ) (2025-09-26T20:54:35Z) - Perch 2.0: The Bittern Lesson for Bioacoustics [7.540404494602192]
Perch(パーチ)は、バイオ音響学の訓練済みモデルである。
教師付き方式で訓練され、何千もの発声種に対する既成の分類スコアと、移動学習のための強力な埋め込みの両方を提供する。
この新しいリリースであるPerch 2.0では、鳥のみを対象としたトレーニングから、大規模なマルチタキサデータセットまで拡張しています。
論文 参考訳(メタデータ) (2025-08-06T17:34:43Z) - Foundation Models for Bioacoustics -- a Comparative Review [0.9109149174920012]
本稿では, 生体音響基礎モデルについて, モデルアーキテクチャ, 事前学習計画, 訓練パラダイムなどの設計決定を徹底的に分析して検討する。
BEANSおよびBirdSetベンチマークから,分類タスクの選択基盤モデルを評価する。
総合的な実験分析の結果,BirdSetベンチマークでは,大規模鳥の鳴き声データに基づく自己指導による学習が最高の成績を収めていることが明らかとなった。
論文 参考訳(メタデータ) (2025-08-02T09:15:16Z) - Qwen2.5 Technical Report [122.13958993185952]
Qwen2.5は多種多様なニーズに対応するように設計された大規模言語モデル(LLM)の包括的シリーズである。
以前のイテレーションと比較して、Qwen 2.5はトレーニング前とトレーニング後の両方で大幅に改善されている。
オープンウェイト製品には、ベースモデルと命令チューニングモデルが含まれており、量子化されたバージョンが利用可能である。
ホスト型ソリューションでは、現在プロプライエタリなモデルには、Qwen2.5-TurboとQwen2.5-Plusの2つの混合型(MoE)が含まれている。
論文 参考訳(メタデータ) (2024-12-19T17:56:09Z) - Benchmarking Large Language Models for Image Classification of Marine Mammals [4.274291455715579]
我々は65種類の海洋哺乳類の1,423種類の画像を用いたベンチマークデータセットを構築した。
各動物は、種レベルから中レベル、グループレベルまで、それぞれ異なるレベルに分類される。
我々はこれらの海洋哺乳動物を分類するためのいくつかのアプローチを評価する。
論文 参考訳(メタデータ) (2024-10-22T01:49:49Z) - AudioProtoPNet: An interpretable deep learning model for bird sound classification [1.49199020343864]
本研究では,マルチラベル鳥の音の分類にPrototypeal Part Network(ProtoPNet)を適応したAudioProtoPNetを紹介する。
これは本質的に解釈可能なモデルであり、埋め込みを抽出するためにConvNeXtのバックボーンを使用する。
このモデルは、9,734種の鳥類と6,800時間以上の録音からなるBirdSetトレーニングデータセットで訓練された。
論文 参考訳(メタデータ) (2024-04-16T09:37:41Z) - Exploring Meta Information for Audio-based Zero-shot Bird Classification [113.17261694996051]
本研究では,メタ情報を用いてゼロショット音声分類を改善する方法について検討する。
我々は,多種多様なメタデータが利用可能であることから,鳥種を例として用いている。
論文 参考訳(メタデータ) (2023-09-15T13:50:16Z) - LeBenchmark 2.0: a Standardized, Replicable and Enhanced Framework for Self-supervised Representations of French Speech [70.3307853082527]
この研究は、SSL対応のフランス語音声技術の評価と構築のためのオープンソースのフレームワークであるLeBenchmark 2.0を紹介している。
文書化され、大規模で、異質なコーパスを含み、14,000時間に及ぶ異質なスピーチがある。
コミュニティが共有する2600万から10億の学習可能なパラメータを含む、トレーニング済みのSSLwav2vec 2.0モデルが10種類含まれている。
論文 参考訳(メタデータ) (2023-09-11T14:13:09Z) - TempNet: Temporal Attention Towards the Detection of Animal Behaviour in
Videos [63.85815474157357]
本稿では,映像中の生物学的行動を検出するための,効率的なコンピュータビジョンと深層学習に基づく手法を提案する。
TempNetはエンコーダブリッジと残留ブロックを使用して、2段階の空間的、そして時間的、エンコーダでモデル性能を維持する。
本研究では,サブルフィッシュ (Anoplopoma fimbria) 幼虫の検出への応用を実証する。
論文 参考訳(メタデータ) (2022-11-17T23:55:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。