論文の概要: CLAP-S: Support Set Based Adaptation for Downstream Fiber-optic Acoustic Recognition
- arxiv url: http://arxiv.org/abs/2501.09877v1
- Date: Thu, 16 Jan 2025 23:22:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 13:58:51.563003
- Title: CLAP-S: Support Set Based Adaptation for Downstream Fiber-optic Acoustic Recognition
- Title(参考訳): CLAP-S: ダウンストリームファイバ光音響認識のためのサポートセットベース適応
- Authors: Jingchen Sun, Shaobo Han, Wataru Kohno, Changyou Chen,
- Abstract要約: CLAP(Contrastive Language-Audio Pretraining)モデルは、音響信号認識タスクにおいて前例のない性能を示した。
本稿では,CLAP 適応器と CLAP 適応器を線形に補間するサポートベース適応手法 CLAP-S を提案する。
実験結果から,実験室で記録した光ファイバーESC-50データセットと実世界の光ファイバーショットファイアワークデータセットの両方で競合性能が得られた。
- 参考スコア(独自算出の注目度): 28.006925515022882
- License:
- Abstract: Contrastive Language-Audio Pretraining (CLAP) models have demonstrated unprecedented performance in various acoustic signal recognition tasks. Fiber-optic-based acoustic recognition is one of the most important downstream tasks and plays a significant role in environmental sensing. Adapting CLAP for fiber-optic acoustic recognition has become an active research area. As a non-conventional acoustic sensor, fiber-optic acoustic recognition presents a challenging, domain-specific, low-shot deployment environment with significant domain shifts due to unique frequency response and noise characteristics. To address these challenges, we propose a support-based adaptation method, CLAP-S, which linearly interpolates a CLAP Adapter with the Support Set, leveraging both implicit knowledge through fine-tuning and explicit knowledge retrieved from memory for cross-domain generalization. Experimental results show that our method delivers competitive performance on both laboratory-recorded fiber-optic ESC-50 datasets and a real-world fiber-optic gunshot-firework dataset. Our research also provides valuable insights for other downstream acoustic recognition tasks. The code and gunshot-firework dataset are available at https://github.com/Jingchensun/clap-s.
- Abstract(参考訳): CLAP(Contrastive Language-Audio Pretraining)モデルは様々な音響信号認識タスクにおいて前例のない性能を示した。
光ファイバーによる音響認識は、下流における最も重要な課題の一つであり、環境検知において重要な役割を担っている。
光ファイバ音響認識のためのCLAPの適応化が活発な研究領域となっている。
非従来型音響センサとして、光ファイバー音響認識は、独自の周波数応答とノイズ特性により、ドメインシフトが著しい、ドメイン固有の、低ショット配置環境を示す。
これらの課題に対処するために,メモリから取得した暗黙的知識と暗黙的知識の両方を利用して,CLAPアダプタとサポートセットを線形に補間するCLAP-Sを提案する。
実験結果から,実験室で記録した光ファイバーESC-50データセットと実世界の光ファイバーショットファイアワークデータセットの両方で競合性能が得られた。
我々の研究は、他の下流音響認識タスクにも有意義な洞察を提供する。
code と gunshot-firework データセットは https://github.com/Jingchensun/clap-s で公開されている。
関連論文リスト
- ActiveRIR: Active Audio-Visual Exploration for Acoustic Environment Modeling [57.1025908604556]
環境音響モデルは、室内環境の物理的特性によって音がどのように変換されるかを表す。
本研究では,非マップ環境の環境音響モデルを効率的に構築する新しい課題であるアクティブ音響サンプリングを提案する。
我々は,音声・視覚センサストリームからの情報を利用してエージェントナビゲーションを誘導し,最適な音響データサンプリング位置を決定する強化学習ポリシーであるActiveRIRを紹介する。
論文 参考訳(メタデータ) (2024-04-24T21:30:01Z) - Retrieval-Augmented Audio Deepfake Detection [27.13059118273849]
そこで本研究では,類似のサンプルを用いて検体を増強する検索拡張検出フレームワークを提案する。
提案したRADフレームワークのベースライン法よりも優れた性能を示す実験を行った。
論文 参考訳(メタデータ) (2024-04-22T05:46:40Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - Advancing Test-Time Adaptation in Wild Acoustic Test Settings [26.05732574338255]
音声信号は短期的な一貫性に従い、特別な適応戦略を必要とする。
本研究では,ASR微調整音響基礎モデルに適した新しい音響TTA法を提案する。
本手法は,様々な音環境下での既存のベースラインよりも優れる。
論文 参考訳(メタデータ) (2023-10-14T06:22:08Z) - Psychoacoustic Challenges Of Speech Enhancement On VoIP Platforms [19.122454483635615]
この研究は、Deep Noise Suppression (DNS) 2020データセットに基づいており、様々なデノナイジング設定やレシーバインターフェースに合わせて、構造化された検査を確実にする。
Blinder-Oaxaca分解(Blinder-Oaxaca decomposition)は、従来のエコノメトリーツールであり、VoIPシステム内の音響・音響的摂動を解析するための手法である。
主な発見に加えて、さまざまな指標が報告され、研究のパースペクションが拡張された。
論文 参考訳(メタデータ) (2023-10-11T03:19:22Z) - Neural Acoustic Context Field: Rendering Realistic Room Impulse Response
With Neural Fields [61.07542274267568]
このレターでは、音声シーンをパラメータ化するためのNACFと呼ばれる新しいニューラルネットワークコンテキストフィールドアプローチを提案する。
RIRのユニークな性質により、時間相関モジュールとマルチスケールエネルギー崩壊基準を設計する。
実験の結果,NACFは既存のフィールドベース手法よりも顕著なマージンで優れていた。
論文 参考訳(メタデータ) (2023-09-27T19:50:50Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Discriminative Singular Spectrum Classifier with Applications on
Bioacoustic Signal Recognition [67.4171845020675]
分析や分類に有用な特徴を効率的に抽出する識別機構を備えた生体音響信号分類器を提案する。
タスク指向の現在のバイオ音響認識法とは異なり、提案モデルは入力信号をベクトル部分空間に変換することに依存する。
提案法の有効性は,アヌラン,ミツバチ,蚊の3種の生物音響データを用いて検証した。
論文 参考訳(メタデータ) (2021-03-18T11:01:21Z) - Cross-domain Adaptation with Discrepancy Minimization for
Text-independent Forensic Speaker Verification [61.54074498090374]
本研究では,複数の音響環境下で収集したCRSS-Forensicsオーディオデータセットを紹介する。
我々は、VoxCelebデータを用いてCNNベースのネットワークを事前訓練し、次に、CRSS-Forensicsのクリーンな音声で高レベルのネットワーク層の一部を微調整するアプローチを示す。
論文 参考訳(メタデータ) (2020-09-05T02:54:33Z) - A Multi-view CNN-based Acoustic Classification System for Automatic
Animal Species Identification [42.119250432849505]
無線音響センサネットワーク(WASN)のためのディープラーニングに基づく音響分類フレームワークを提案する。
提案フレームワークは,無線センサノードの計算負担を緩和するクラウドアーキテクチャに基づいている。
認識精度を向上させるために,多視点畳み込みニューラルネットワーク(CNN)を設計し,短期・中期・長期の依存関係を並列に抽出する。
論文 参考訳(メタデータ) (2020-02-23T03:51:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。