論文の概要: Underwater-Art: Expanding Information Perspectives With Text Templates
For Underwater Acoustic Target Recognition
- arxiv url: http://arxiv.org/abs/2305.19612v2
- Date: Mon, 19 Feb 2024 13:32:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 06:46:16.061926
- Title: Underwater-Art: Expanding Information Perspectives With Text Templates
For Underwater Acoustic Target Recognition
- Title(参考訳): Underwater-Art:水中音響目標認識のためのテキストテンプレートによる情報視点の拡大
- Authors: Yuan Xie, Jiawei Ren, Ji Xu
- Abstract要約: 水中音響信号は, 距離, 流路深さ, その他の要因に大きく影響されている。
本稿では,関連する情報からなるテンプレートに水中音響認識を実装することを提案する。
- 参考スコア(独自算出の注目度): 25.887932248706218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Underwater acoustic target recognition is an intractable task due to the
complex acoustic source characteristics and sound propagation patterns. Limited
by insufficient data and narrow information perspective, recognition models
based on deep learning seem far from satisfactory in practical underwater
scenarios. Although underwater acoustic signals are severely influenced by
distance, channel depth, or other factors, annotations of relevant information
are often non-uniform, incomplete, and hard to use. In our work, we propose to
implement Underwater Acoustic Recognition based on Templates made up of rich
relevant information (hereinafter called "UART"). We design templates to
integrate relevant information from different perspectives into descriptive
natural language. UART adopts an audio-spectrogram-text tri-modal contrastive
learning framework, which endows UART with the ability to guide the learning of
acoustic representations by descriptive natural language. Our experiments
reveal that UART has better recognition capability and generalization
performance than traditional paradigms. Furthermore, the pre-trained UART model
could provide superior prior knowledge for the recognition model in the
scenario without any auxiliary annotation.
- Abstract(参考訳): 水中音響目標認識は, 複雑な音源特性と伝搬パターンにより, 難易度の高い課題である。
不十分なデータと狭い情報の観点から制限されたディープラーニングに基づく認識モデルは、実践的な水中シナリオでは不十分に思える。
水中の音響信号は距離、チャンネルの深さ、その他の要因によって大きく影響を受けるが、関連する情報の注釈はしばしば不均一で不完全であり、使用が難しい。
本研究では,豊富な関連情報(以下「UART」という)からなるテンプレートに基づく水中音響認識の実装を提案する。
さまざまな視点から関連する情報を記述自然言語に統合するテンプレートを設計する。
uartは、音声-スペクトログラム-テキストの3-モーダルコントラスト学習フレームワークを採用しており、uartを記述的自然言語による音響表現の学習を導くことができる。
実験の結果,UARTは従来のパラダイムよりも認識能力と一般化性能が優れていることがわかった。
さらに、事前訓練されたUARTモデルは、補助アノテーションなしでシナリオにおける認識モデルに対する優れた事前知識を提供することができる。
関連論文リスト
- Probing the Information Encoded in Neural-based Acoustic Models of
Automatic Speech Recognition Systems [7.207019635697126]
本稿では,自動音声認識音響モデル(AM)における情報の位置と位置を決定することを目的とする。
話者検証,音響環境分類,性別分類,テンポ歪検出システム,音声感情・感情識別について実験を行った。
分析の結果、ニューラルベースAMは驚くほど音素認識と無関係に思える異種情報を持っていることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:43:53Z) - Underwater Acoustic Signal Recognition Based on Salient Feature [9.110359213246825]
本稿では,水中音響信号認識のためのニューラルネットワークを用いた手法を提案する。
提案手法は,水中音響信号の分類のためのスペクトルから抽出した特徴を連続的に学習することを含む。
論文 参考訳(メタデータ) (2023-12-20T16:04:02Z) - Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models [64.24227572048075]
本稿では,視覚言語モデルのためのKnowledge-Aware Prompt Tuning(KAPT)フレームワークを提案する。
我々のアプローチは、人間の知性からインスピレーションを得ており、外部知識は、通常、オブジェクトの新たなカテゴリを認識するために組み込まれています。
論文 参考訳(メタデータ) (2023-08-22T04:24:45Z) - ALADIN-NST: Self-supervised disentangled representation learning of
artistic style through Neural Style Transfer [60.6863849241972]
我々は、画像に描かれた意味的内容から、より強く絡み合った視覚芸術スタイルの表現を学習する。
スタイルと内容の絡み合いに強く対処することで、スタイル固有のメトリクスが大きく向上することを示します。
論文 参考訳(メタデータ) (2023-04-12T10:33:18Z) - KERM: Knowledge Enhanced Reasoning for Vision-and-Language Navigation [61.08389704326803]
VLN(Vision-and-Language Navigation)は、実シーンにおける自然言語命令に続く遠隔地への移動を可能にするタスクである。
以前のアプローチのほとんどは、ナビゲート可能な候補を表現するために、機能全体やオブジェクト中心の機能を利用している。
本稿では,知識を活用したエージェントナビゲーション能力向上のための知識強化推論モデル(KERM)を提案する。
論文 参考訳(メタデータ) (2023-03-28T08:00:46Z) - Learning Visual Representation of Underwater Acoustic Imagery Using
Transformer-Based Style Transfer Method [4.885034271315195]
本論文は水中音響画像の視覚的表現を学習するための枠組みを提案する。
これは、光学画像の低レベルのテクスチャ特徴を水中音響画像の視覚的特徴に置き換える可能性がある。
提案するフレームワークは、擬似音響画像データセットを生成するために、リッチな光学画像データセットを完全に利用できる。
論文 参考訳(メタデータ) (2022-11-10T07:54:46Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z) - Distilling Audio-Visual Knowledge by Compositional Contrastive Learning [51.20935362463473]
我々は、クロスモーダルな意味のギャップを埋める構成埋め込みを学びます。
3つのビデオデータセットに新しい総合的マルチモーダル蒸留ベンチマークを確立した。
論文 参考訳(メタデータ) (2021-04-22T09:31:20Z) - COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio
Representations [32.456824945999465]
本稿では,学習した音声とその関連タグの潜在表現を調整し,音声表現を学習する手法を提案する。
組込みモデルの性能評価を行い,その性能を3つの異なるタスクにおける特徴抽出器として評価した。
論文 参考訳(メタデータ) (2020-06-15T13:17:18Z) - Cross-Task Transfer for Geotagged Audiovisual Aerial Scene Recognition [61.54648991466747]
映像と音を入力として用いた視覚的空中シーン認識タスクについて検討する。
航空シーン認識のための音声情報を活用する利点を示す。
論文 参考訳(メタデータ) (2020-05-18T04:14:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。