論文の概要: Adaptation and Optimization of Automatic Speech Recognition (ASR) for
the Maritime Domain in the Field of VHF Communication
- arxiv url: http://arxiv.org/abs/2306.00614v1
- Date: Thu, 1 Jun 2023 12:38:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 16:24:36.093826
- Title: Adaptation and Optimization of Automatic Speech Recognition (ASR) for
the Maritime Domain in the Field of VHF Communication
- Title(参考訳): VHF通信分野における海事領域の自動音声認識(ASR)の適応と最適化
- Authors: Emin Cagatay Nakilcioglu, Maximilian Reimann, Ole John
- Abstract要約: 海上無線用多言語自動音声認識装置(ASR)は、受信したVHF無線信号をテキストに変換する。
音声処理技術と機械学習アルゴリズムからなるmarFMのディープラーニングアーキテクチャについて述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper introduces a multilingual automatic speech recognizer (ASR) for
maritime radio communi-cation that automatically converts received VHF radio
signals into text. The challenges of maritime radio communication are described
at first, and the deep learning architecture of marFM consisting of audio
processing techniques and machine learning algorithms is presented.
Subsequently, maritime radio data of interest is analyzed and then used to
evaluate the transcription performance of our ASR model for various maritime
radio data.
- Abstract(参考訳): 本稿では,受信したvhf無線信号をテキストに自動変換する海上無線通信用多言語自動音声認識器(asr)を提案する。
まず,海上無線通信の課題について述べるとともに,音声処理技術と機械学習アルゴリズムからなるmalFMの深層学習アーキテクチャについて述べる。
その後,海事無線データを分析し,各種海事無線データに対するasrモデルの書き起こし性能評価を行う。
関連論文リスト
- Prediction of Acoustic Communication Performance for AUVs using Gaussian Process Classification [6.381013699474244]
自律型水中車両(AUV)の協調は、効果的に行動を調整するために音響通信に依存していることが多い。
本稿では,送受信車両の位置に基づいて,通信成功確率を表す地図を学習する手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T17:04:12Z) - Optimal Transport Maps are Good Voice Converters [58.42556113055807]
本稿では,メル・スペクトログラムや自己教師付き音声モデルの潜在表現など,さまざまなデータ表現に最適なトランスポートアルゴリズムを提案する。
メリースペクトルデータ表現では、Frechet Audio Distance (FAD) を用いて強い結果が得られる。
我々は,限られた参照話者データであっても,最先端の成果を達成し,既存手法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-17T22:48:53Z) - Joint vs Sequential Speaker-Role Detection and Automatic Speech Recognition for Air-traffic Control [60.35553925189286]
本稿では,標準のASRアーキテクチャを頼りながら,両タスクを協調的に解決するトランスフォーマーベースのジョイントASR-SRDシステムを提案する。
複数のATCデータセット上でのASRとSRDの2つのケースドアプローチとの比較を行った。
論文 参考訳(メタデータ) (2024-06-19T21:11:01Z) - Fast and Accurate Cooperative Radio Map Estimation Enabled by GAN [63.90647197249949]
6G時代には、無線リソースのリアルタイムモニタリングと管理が、多様な無線アプリケーションをサポートするように求められている。
本稿では,GAN(Generative Adversarial Network)による協調的無線地図推定手法を提案する。
論文 参考訳(メタデータ) (2024-02-05T05:01:28Z) - Speech Diarization and ASR with GMM [0.0]
音声ダイアリゼーションは、音声ストリーム内の個々の話者の分離を含む。
ASRは未知の音声波形を対応する書き起こしに変換する。
我々の主な目的は、音声の書き起こし中にワード誤り率(WER)を最小化するモデルを開発することである。
論文 参考訳(メタデータ) (2023-07-11T09:25:39Z) - Enabling the Wireless Metaverse via Semantic Multiverse Communication [82.47169682083806]
無線ネットワーク上のメタバースは、第6世代(6G)無線システムの新たなユースケースである。
メタバースを人間/機械エージェント固有のセマンティック・マルチバース(SM)に分解する新しいセマンティック・コミュニケーション・フレームワークを提案する。
各エージェントに格納されたSMは、セマンティックエンコーダとジェネレータから構成され、生成人工知能(AI)の最近の進歩を活用する。
論文 参考訳(メタデータ) (2022-12-13T21:21:07Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - Three-Way Deep Neural Network for Radio Frequency Map Generation and
Source Localization [67.93423427193055]
空間、時間、周波数領域にわたる無線スペクトルのモニタリングは、5Gと6G以上の通信技術において重要な特徴となる。
本稿では,空間領域全体にわたる不規則分散計測を補間するGAN(Generative Adversarial Network)機械学習モデルを提案する。
論文 参考訳(メタデータ) (2021-11-23T22:25:10Z) - Speech recognition for air traffic control via feature learning and
end-to-end training [8.755785876395363]
本稿では,特徴学習に基づく新しい自動音声認識(ASR)システムと,航空交通制御(ATC)システムのためのエンドツーエンドトレーニング手順を提案する。
提案モデルでは、特徴学習ブロック、リカレントニューラルネットワーク(RNN)、コネクショニストの時間的分類損失を統合する。
生波形から表現を学習する能力により、提案したモデルは完全なエンドツーエンドで最適化できる。
論文 参考訳(メタデータ) (2021-11-04T06:38:21Z) - A Comparative Study of Speaker Role Identification in Air Traffic
Communication Using Deep Learning Approaches [9.565067058593316]
本稿では、二項分類問題として、コントローラ-パイロット通信の話者ロール識別(SRI)タスクを定式化する。
比較アプローチの影響を緩和するために、様々な高度なニューラルネットワークアーキテクチャが適用される。
提案したMMSRINetは、可視データと可視データの両方において、他の方法よりも競合性能とロバスト性を示している。
論文 参考訳(メタデータ) (2021-11-03T07:00:20Z) - ATCSpeechNet: A multilingual end-to-end speech recognition framework for
air traffic control systems [15.527854608553824]
ATCSpeechNetは、航空交通制御システムにおけるコミュニケーション音声を人間可読テキストに変換する問題に取り組むために提案されている。
特徴工学や辞書を使わずに、音声波形を直接テキストに変換するエンドツーエンドのパラダイムが開発されている。
ATCSpeech corpusの実験結果から,非常に小さなラベル付きコーパスを用いて,提案手法が高い性能を実現することが示された。
論文 参考訳(メタデータ) (2021-02-17T02:27:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。