論文の概要: CLAPP: Contrastive Language-Audio Pre-training in Passive Underwater
Vessel Classification
- arxiv url: http://arxiv.org/abs/2401.02099v2
- Date: Mon, 15 Jan 2024 05:23:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 23:50:05.276040
- Title: CLAPP: Contrastive Language-Audio Pre-training in Passive Underwater
Vessel Classification
- Title(参考訳): CLAPP:パッシブ水中容器分類におけるコントラスト言語-オーディオ事前学習
- Authors: Zeyu Li, Jingsheng Gao, Tong Yu, Suncheng Xiang, Jiacheng Ruan, Ting
Liu, Yuzhuo Fu
- Abstract要約: 本稿では,新しいモデルであるCLAPP(Contrastive Language-Audio Pre-Training in Underwater Vessel Classification)を紹介する。
我々の目標は、海洋データセットから得られた広範囲の血管オーディオと血管状態テキストペアを使用してニューラルネットワークをトレーニングすることである。
CLAPPは、生の血管オーディオデータから直接学習し、利用可能であれば、慎重にキュレートされたラベルから学習することができる。
- 参考スコア(独自算出の注目度): 25.07379013457703
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing research on audio classification faces challenges in recognizing
attributes of passive underwater vessel scenarios and lacks well-annotated
datasets due to data privacy concerns. In this study, we introduce CLAPP
(Contrastive Language-Audio Pre-training in Passive Underwater Vessel
Classification), a novel model. Our aim is to train a neural network using a
wide range of vessel audio and vessel state text pairs obtained from an
oceanship dataset. CLAPP is capable of directly learning from raw vessel audio
data and, when available, from carefully curated labels, enabling improved
recognition of vessel attributes in passive underwater vessel scenarios.
Model's zero-shot capability allows predicting the most relevant vessel state
description for a given vessel audio, without directly optimizing for the task.
Our approach aims to solve 2 challenges: vessel audio-text classification and
passive underwater vessel audio attribute recognition. The proposed method
achieves new state-of-the-art results on both Deepship and Shipsear public
datasets, with a notable margin of about 7%-13% for accuracy compared to prior
methods on zero-shot task.
- Abstract(参考訳): 既存のオーディオ分類の研究は、受動的水中容器のシナリオの属性を認識することの難しさに直面し、データプライバシの懸念による十分な注釈付きデータセットが欠如している。
本研究では,新しいモデルclapp(contrastive language-audio pre-training in passive underwater vessel classification)を提案する。
本研究の目的は,オーシャンシップデータセットから得られた広い範囲の船舶音声と船舶状態テキストペアを用いてニューラルネットワークを訓練することである。
CLAPPは、生の血管オーディオデータから直接学習することができ、利用可能であれば、慎重にキュレートされたラベルから、受動的水中血管シナリオにおける血管属性の認識を改善することができる。
Modelのゼロショット機能は、タスクを直接最適化することなく、与えられた船体オーディオの最も関連性の高い船体状態記述を予測できる。
本研究の目的は,血管内オーディオテキスト分類と受動的水中オーディオ属性認識という2つの課題を解決することである。
提案手法はdeepshipとshipsearの両方のパブリックデータセットで最新の結果を得ることができ、ゼロショットタスクの以前の方法と比較して精度が7%-13%とかなり低い。
関連論文リスト
- Proactive Detection of Voice Cloning with Localized Watermarking [52.77113619386194]
本稿では,AI生成音声の局所検出に特化して設計された,最初の音声透かし技術であるAudioSealを紹介する。
AudioSealは、ローカライゼーションロスと共同でトレーニングされたジェネレータ/検出器アーキテクチャを使用して、サンプルレベルまでローカライズされた透かし検出を可能にする。
AudioSealは、実生活のオーディオ操作に対する堅牢性と、自動的および人的評価指標に基づく非知覚性の観点から、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-30T18:56:22Z) - Cross-domain Sound Recognition for Efficient Underwater Data Analysis [4.373836150479923]
本研究では, 水中音の広帯域学習モデルを用いて, 水中音響データを解析するための新しい深層学習手法を提案する。
我々は,PCA と UMAP の可視化を用いて2次元空間にデータをクラスタ化し,これらのクラスタ内の点を聴き,それらの定義特性を理解する。
第2部では、選択した水中データと非水中データセットの両方を用いてニューラルネットワークモデルを訓練する。
論文 参考訳(メタデータ) (2023-09-07T02:26:32Z) - Improving Generalization of Synthetically Trained Sonar Image
Descriptors for Underwater Place Recognition [1.8911961520222997]
水中環境における自律航法は、光吸収や水濁度などの要因によって困難を呈する。
従来のコンピュータビジョンアルゴリズムはソナー生成音響画像に適用しても効果が低い。
本稿では,合成データのみを訓練しながら,実シナリオに一般化可能な,コンパクトな深層ソナー記述子パイプラインを提案する。
論文 参考訳(メタデータ) (2023-08-02T10:10:25Z) - Histogram Layer Time Delay Neural Networks for Passive Sonar
Classification [58.720142291102135]
時間遅延ニューラルネットワークとヒストグラム層を組み合わせた新しい手法により,特徴学習の改善と水中音響目標分類を実現する。
提案手法はベースラインモデルより優れており,受動的ソナー目標認識のための統計的文脈を取り入れた有効性を示す。
論文 参考訳(メタデータ) (2023-07-25T19:47:26Z) - Underwater-Art: Expanding Information Perspectives With Text Templates
For Underwater Acoustic Target Recognition [25.887932248706218]
水中音響信号は, 距離, 流路深さ, その他の要因に大きく影響されている。
本稿では,関連する情報からなるテンプレートに水中音響認識を実装することを提案する。
論文 参考訳(メタデータ) (2023-05-31T07:28:37Z) - Learning Visual Representation of Underwater Acoustic Imagery Using
Transformer-Based Style Transfer Method [4.885034271315195]
本論文は水中音響画像の視覚的表現を学習するための枠組みを提案する。
これは、光学画像の低レベルのテクスチャ特徴を水中音響画像の視覚的特徴に置き換える可能性がある。
提案するフレームワークは、擬似音響画像データセットを生成するために、リッチな光学画像データセットを完全に利用できる。
論文 参考訳(メタデータ) (2022-11-10T07:54:46Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - Intent Classification Using Pre-Trained Embeddings For Low Resource
Languages [67.40810139354028]
言語固有の音声認識に依存しない音声理解システムを構築することは、言語処理において重要でない問題である。
本稿では,事前学習した音響モデルを用いて,低資源シナリオにおける音声言語理解を実現するための比較研究を提案する。
私たちは、ハイ、ミディアム、低リソースシナリオをシミュレートするために、それぞれ異なるデータサイズを持つ英語、Sinhala、Tamilの3つの異なる言語で実験を行います。
論文 参考訳(メタデータ) (2021-10-18T13:06:59Z) - Target-Speaker Voice Activity Detection: a Novel Approach for
Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。
TS-VADは各時間フレーム上の各話者の活動を直接予測する。
CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文 参考訳(メタデータ) (2020-05-14T21:24:56Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。