論文の概要: Underwater-Art: Expanding Information Perspectives With Text Templates
For Underwater Acoustic Target Recognition
- arxiv url: http://arxiv.org/abs/2305.19612v1
- Date: Wed, 31 May 2023 07:28:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 18:00:02.911681
- Title: Underwater-Art: Expanding Information Perspectives With Text Templates
For Underwater Acoustic Target Recognition
- Title(参考訳): Underwater-Art:水中音響目標認識のためのテキストテンプレートによる情報視点の拡大
- Authors: Yuan Xie, Jiawei Ren, Ji Xu
- Abstract要約: 水中音響信号は, 距離, 流路深さ, その他の要因に大きく影響されている。
本稿では,関連する情報からなるテンプレートに水中音響認識を実装することを提案する。
- 参考スコア(独自算出の注目度): 26.110124016534552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Underwater acoustic target recognition is an intractable task due to the
complex acoustic source characteristics and sound propagation patterns. Limited
by insufficient data and narrow information perspective, recognition models
based on deep learning seem far from satisfactory in practical underwater
scenarios. Although underwater acoustic signals are severely influenced by
distance, channel depth, or other factors, annotations of relevant information
are often non-uniform, incomplete, and hard to use. In our work, we propose to
implement Underwater Acoustic Recognition based on Templates made up of rich
relevant information (hereinafter called "UART"). We design templates to
integrate relevant information from different perspectives into descriptive
natural language. UART adopts an audio-spectrogram-text tri-modal contrastive
learning framework, which endows UART with the ability to guide the learning of
acoustic representations by descriptive natural language. Our experiments
reveal that UART has better recognition capability and generalization
performance than traditional paradigms. Furthermore, the pre-trained UART model
could provide superior prior knowledge for the recognition model in the
scenario without any auxiliary annotation.
- Abstract(参考訳): 水中音響目標認識は, 複雑な音源特性と伝搬パターンにより, 難易度の高い課題である。
不十分なデータと狭い情報の観点から制限されたディープラーニングに基づく認識モデルは、実践的な水中シナリオでは不十分に思える。
水中の音響信号は距離、チャンネルの深さ、その他の要因によって大きく影響を受けるが、関連する情報の注釈はしばしば不均一で不完全であり、使用が難しい。
本研究では,豊富な関連情報(以下「UART」という)からなるテンプレートに基づく水中音響認識の実装を提案する。
さまざまな視点から関連する情報を記述自然言語に統合するテンプレートを設計する。
uartは、音声-スペクトログラム-テキストの3-モーダルコントラスト学習フレームワークを採用しており、uartを記述的自然言語による音響表現の学習を導くことができる。
実験の結果,UARTは従来のパラダイムよりも認識能力と一般化性能が優れていることがわかった。
さらに、事前訓練されたUARTモデルは、補助アノテーションなしでシナリオにおける認識モデルに対する優れた事前知識を提供することができる。
関連論文リスト
- Roadmap towards Superhuman Speech Understanding using Large Language Models [60.57947401837938]
大規模言語モデル(LLM)は、音声データと音声データを統合したものである。
GPT-4oのような最近の進歩は、エンドツーエンドのLLMの可能性を強調している。
本稿では,基本自動音声認識(ASR)から高度な超人モデルまで,5段階のロードマップを提案する。
論文 参考訳(メタデータ) (2024-10-17T06:44:06Z) - Explaining Deep Learning Embeddings for Speech Emotion Recognition by Predicting Interpretable Acoustic Features [5.678610585849838]
事前学習されたディープラーニング埋め込みは、音声感情認識において手作り音響特性よりも優れた性能を示している。
明瞭な物理的意味を持つ音響的特徴とは異なり、これらの埋め込みは明確な解釈可能性を持たない。
本稿では,音声の感情空間における深層学習の埋め込みを説明するための改良型探索手法を提案する。
論文 参考訳(メタデータ) (2024-09-14T19:18:56Z) - Augmented Commonsense Knowledge for Remote Object Grounding [67.30864498454805]
エージェントナビゲーションを改善するための時間的知識グラフとして,コモンセンス情報を活用するための拡張コモンセンス知識モデル(ACK)を提案する。
ACKは知識グラフ対応のクロスモーダルとコンセプトアグリゲーションモジュールで構成され、視覚的表現と視覚的テキストデータアライメントを強化する。
我々は、より正確な局所的な行動予測につながるコモンセンスに基づく意思決定プロセスのための新しいパイプラインを追加します。
論文 参考訳(メタデータ) (2024-06-03T12:12:33Z) - Probing the Information Encoded in Neural-based Acoustic Models of
Automatic Speech Recognition Systems [7.207019635697126]
本稿では,自動音声認識音響モデル(AM)における情報の位置と位置を決定することを目的とする。
話者検証,音響環境分類,性別分類,テンポ歪検出システム,音声感情・感情識別について実験を行った。
分析の結果、ニューラルベースAMは驚くほど音素認識と無関係に思える異種情報を持っていることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:43:53Z) - Underwater Acoustic Signal Recognition Based on Salient Feature [9.110359213246825]
本稿では,水中音響信号認識のためのニューラルネットワークを用いた手法を提案する。
提案手法は,水中音響信号の分類のためのスペクトルから抽出した特徴を連続的に学習することを含む。
論文 参考訳(メタデータ) (2023-12-20T16:04:02Z) - Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models [64.24227572048075]
本稿では,視覚言語モデルのためのKnowledge-Aware Prompt Tuning(KAPT)フレームワークを提案する。
我々のアプローチは、人間の知性からインスピレーションを得ており、外部知識は、通常、オブジェクトの新たなカテゴリを認識するために組み込まれています。
論文 参考訳(メタデータ) (2023-08-22T04:24:45Z) - Learning Visual Representation of Underwater Acoustic Imagery Using
Transformer-Based Style Transfer Method [4.885034271315195]
本論文は水中音響画像の視覚的表現を学習するための枠組みを提案する。
これは、光学画像の低レベルのテクスチャ特徴を水中音響画像の視覚的特徴に置き換える可能性がある。
提案するフレームワークは、擬似音響画像データセットを生成するために、リッチな光学画像データセットを完全に利用できる。
論文 参考訳(メタデータ) (2022-11-10T07:54:46Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z) - Distilling Audio-Visual Knowledge by Compositional Contrastive Learning [51.20935362463473]
我々は、クロスモーダルな意味のギャップを埋める構成埋め込みを学びます。
3つのビデオデータセットに新しい総合的マルチモーダル蒸留ベンチマークを確立した。
論文 参考訳(メタデータ) (2021-04-22T09:31:20Z) - Cross-Task Transfer for Geotagged Audiovisual Aerial Scene Recognition [61.54648991466747]
映像と音を入力として用いた視覚的空中シーン認識タスクについて検討する。
航空シーン認識のための音声情報を活用する利点を示す。
論文 参考訳(メタデータ) (2020-05-18T04:14:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。