Fugu-MT 論文翻訳(概要): Underwater-Art: Expanding Information Perspectives With Text Templates For Underwater Acoustic Target Recognition

論文の概要: Underwater-Art: Expanding Information Perspectives With Text Templates For Underwater Acoustic Target Recognition

arxiv url: http://arxiv.org/abs/2305.19612v2
Date: Mon, 19 Feb 2024 13:32:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 06:46:16.061926
Title: Underwater-Art: Expanding Information Perspectives With Text Templates For Underwater Acoustic Target Recognition
Title（参考訳）: Underwater-Art:水中音響目標認識のためのテキストテンプレートによる情報視点の拡大
Authors: Yuan Xie, Jiawei Ren, Ji Xu
Abstract要約: 水中音響信号は, 距離, 流路深さ, その他の要因に大きく影響されている。本稿では,関連する情報からなるテンプレートに水中音響認識を実装することを提案する。
参考スコア（独自算出の注目度）: 25.887932248706218
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Underwater acoustic target recognition is an intractable task due to the complex acoustic source characteristics and sound propagation patterns. Limited by insufficient data and narrow information perspective, recognition models based on deep learning seem far from satisfactory in practical underwater scenarios. Although underwater acoustic signals are severely influenced by distance, channel depth, or other factors, annotations of relevant information are often non-uniform, incomplete, and hard to use. In our work, we propose to implement Underwater Acoustic Recognition based on Templates made up of rich relevant information (hereinafter called "UART"). We design templates to integrate relevant information from different perspectives into descriptive natural language. UART adopts an audio-spectrogram-text tri-modal contrastive learning framework, which endows UART with the ability to guide the learning of acoustic representations by descriptive natural language. Our experiments reveal that UART has better recognition capability and generalization performance than traditional paradigms. Furthermore, the pre-trained UART model could provide superior prior knowledge for the recognition model in the scenario without any auxiliary annotation.
Abstract（参考訳）: 水中音響目標認識は, 複雑な音源特性と伝搬パターンにより, 難易度の高い課題である。不十分なデータと狭い情報の観点から制限されたディープラーニングに基づく認識モデルは、実践的な水中シナリオでは不十分に思える。水中の音響信号は距離、チャンネルの深さ、その他の要因によって大きく影響を受けるが、関連する情報の注釈はしばしば不均一で不完全であり、使用が難しい。本研究では,豊富な関連情報(以下「UART」という)からなるテンプレートに基づく水中音響認識の実装を提案する。さまざまな視点から関連する情報を記述自然言語に統合するテンプレートを設計する。 uartは、音声-スペクトログラム-テキストの3-モーダルコントラスト学習フレームワークを採用しており、uartを記述的自然言語による音響表現の学習を導くことができる。実験の結果,UARTは従来のパラダイムよりも認識能力と一般化性能が優れていることがわかった。さらに、事前訓練されたUARTモデルは、補助アノテーションなしでシナリオにおける認識モデルに対する優れた事前知識を提供することができる。

関連論文リスト

Roadmap towards Superhuman Speech Understanding using Large Language Models [60.57947401837938]
大規模言語モデル(LLM)は、音声データと音声データを統合したものである。 GPT-4oのような最近の進歩は、エンドツーエンドのLLMの可能性を強調している。本稿では,基本自動音声認識(ASR)から高度な超人モデルまで,5段階のロードマップを提案する。
論文参考訳（メタデータ） (2024-10-17T06:44:06Z)
Explaining Deep Learning Embeddings for Speech Emotion Recognition by Predicting Interpretable Acoustic Features [5.678610585849838]
事前学習されたディープラーニング埋め込みは、音声感情認識において手作り音響特性よりも優れた性能を示している。明瞭な物理的意味を持つ音響的特徴とは異なり、これらの埋め込みは明確な解釈可能性を持たない。本稿では,音声の感情空間における深層学習の埋め込みを説明するための改良型探索手法を提案する。
論文参考訳（メタデータ） (2024-09-14T19:18:56Z)
Augmented Commonsense Knowledge for Remote Object Grounding [67.30864498454805]
エージェントナビゲーションを改善するための時間的知識グラフとして,コモンセンス情報を活用するための拡張コモンセンス知識モデル(ACK)を提案する。 ACKは知識グラフ対応のクロスモーダルとコンセプトアグリゲーションモジュールで構成され、視覚的表現と視覚的テキストデータアライメントを強化する。我々は、より正確な局所的な行動予測につながるコモンセンスに基づく意思決定プロセスのための新しいパイプラインを追加します。
論文参考訳（メタデータ） (2024-06-03T12:12:33Z)
Probing the Information Encoded in Neural-based Acoustic Models of Automatic Speech Recognition Systems [7.207019635697126]
本稿では,自動音声認識音響モデル(AM)における情報の位置と位置を決定することを目的とする。話者検証,音響環境分類,性別分類,テンポ歪検出システム,音声感情・感情識別について実験を行った。分析の結果、ニューラルベースAMは驚くほど音素認識と無関係に思える異種情報を持っていることがわかった。
論文参考訳（メタデータ） (2024-02-29T18:43:53Z)
Underwater Acoustic Signal Recognition Based on Salient Feature [9.110359213246825]
本稿では,水中音響信号認識のためのニューラルネットワークを用いた手法を提案する。提案手法は,水中音響信号の分類のためのスペクトルから抽出した特徴を連続的に学習することを含む。
論文参考訳（メタデータ） (2023-12-20T16:04:02Z)
Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models [64.24227572048075]
本稿では,視覚言語モデルのためのKnowledge-Aware Prompt Tuning(KAPT)フレームワークを提案する。我々のアプローチは、人間の知性からインスピレーションを得ており、外部知識は、通常、オブジェクトの新たなカテゴリを認識するために組み込まれています。
論文参考訳（メタデータ） (2023-08-22T04:24:45Z)
Learning Visual Representation of Underwater Acoustic Imagery Using Transformer-Based Style Transfer Method [4.885034271315195]
本論文は水中音響画像の視覚的表現を学習するための枠組みを提案する。これは、光学画像の低レベルのテクスチャ特徴を水中音響画像の視覚的特徴に置き換える可能性がある。提案するフレームワークは、擬似音響画像データセットを生成するために、リッチな光学画像データセットを完全に利用できる。
論文参考訳（メタデータ） (2022-11-10T07:54:46Z)
Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文参考訳（メタデータ） (2021-09-19T16:39:22Z)
Distilling Audio-Visual Knowledge by Compositional Contrastive Learning [51.20935362463473]
我々は、クロスモーダルな意味のギャップを埋める構成埋め込みを学びます。 3つのビデオデータセットに新しい総合的マルチモーダル蒸留ベンチマークを確立した。
論文参考訳（メタデータ） (2021-04-22T09:31:20Z)
Cross-Task Transfer for Geotagged Audiovisual Aerial Scene Recognition [61.54648991466747]
映像と音を入力として用いた視覚的空中シーン認識タスクについて検討する。航空シーン認識のための音声情報を活用する利点を示す。
論文参考訳（メタデータ） (2020-05-18T04:14:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。