論文の概要: Improving the Environmental Perception of Autonomous Vehicles using Deep
Learning-based Audio Classification
- arxiv url: http://arxiv.org/abs/2209.04075v1
- Date: Fri, 9 Sep 2022 01:23:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-12 13:03:24.169413
- Title: Improving the Environmental Perception of Autonomous Vehicles using Deep
Learning-based Audio Classification
- Title(参考訳): 深層学習に基づく音声分類による自動運転車の環境知覚の改善
- Authors: Finley Walden, Sagar Dasgupta, Mizanur Rahman, Mhafuzul Islam
- Abstract要約: 聴覚知覚は、カメラ、ライダー、レーダーベースの知覚システムと相補的である。
本稿では,自律走行車のためのディープラーニングに基づく頑健な音声分類フレームワークを提案する。
我々のフレームワークは97.82%の精度で異なるオーディオクラスを分類できる。
- 参考スコア(独自算出の注目度): 3.1337872355726084
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Sense of hearing is crucial for autonomous vehicles (AVs) to better perceive
its surrounding environment. Although visual sensors of an AV, such as camera,
lidar, and radar, help to see its surrounding environment, an AV cannot see
beyond those sensors line of sight. On the other hand, an AV s sense of hearing
cannot be obstructed by line of sight. For example, an AV can identify an
emergency vehicle s siren through audio classification even though the
emergency vehicle is not within the line of sight of the AV. Thus, auditory
perception is complementary to the camera, lidar, and radar-based perception
systems. This paper presents a deep learning-based robust audio classification
framework aiming to achieve improved environmental perception for AVs. The
presented framework leverages a deep Convolution Neural Network (CNN) to
classify different audio classes. UrbanSound8k, an urban environment dataset,
is used to train and test the developed framework. Seven audio classes i.e.,
air conditioner, car horn, children playing, dog bark, engine idling, gunshot,
and siren, are identified from the UrbanSound8k dataset because of their
relevancy related to AVs. Our framework can classify different audio classes
with 97.82% accuracy. Moreover, the audio classification accuracies with all
ten classes are presented, which proves that our framework performed better in
the case of AV-related sounds compared to the existing audio classification
frameworks.
- Abstract(参考訳): 聴覚は、自律走行車(avs)が周囲の環境をよりよく認識するためには不可欠である。
AVの視覚センサー(カメラ、ライダー、レーダーなど)は周囲の環境を見るのに役立っているが、AVはそのセンサーの視線を超えて見ることはできない。
一方、AVの聴覚は視線によって妨げられない。
例えば、AVは、緊急車両がAVの視線内にないにもかかわらず、オーディオ分類により緊急車両のサイレンを識別することができる。
したがって、聴覚知覚はカメラ、ライダー、レーダーベースの知覚システムと相補的である。
本稿では,AVの環境認識向上を目的とした,ディープラーニングに基づく頑健な音声分類フレームワークを提案する。
提示されたフレームワークは、ディープ畳み込みニューラルネットワーク(CNN)を利用して、異なるオーディオクラスを分類する。
UrbanSound8kは、開発フレームワークのトレーニングとテストに使用される都市環境データセットである。
エアコン、カーホーン、子供の遊び、犬の樹皮、エンジンアイドリング、銃弾、サイレンの7つのオーディオクラスは、AVに関連する関連性からUrbanSound8kデータセットから同定される。
我々のフレームワークは97.82%の精度で異なるオーディオクラスを分類できる。
さらに,全10クラスにおける音声分類精度が示され,既存の音声分類フレームワークと比較して,av関連音の場合の音声分類性能が良好であることが証明された。
関連論文リスト
- DETECLAP: Enhancing Audio-Visual Representation Learning with Object Information [13.261797668970313]
本稿では,オブジェクト情報を用いた音声視覚表現学習手法であるDETECLAPを紹介する。
キーとなるアイデアは、既存のContrastive Audio-Visual Masked AutoEncoderに、音声と視覚のラベル予測損失を導入することです。
VGGSoundとAudioSet20Kデータセットを用いて,音声・視覚的検索と分類の手法を評価する。
論文 参考訳(メタデータ) (2024-09-18T06:38:48Z) - ContextVLM: Zero-Shot and Few-Shot Context Understanding for Autonomous Driving using Vision Language Models [3.8028747063484594]
視覚言語モデルを用いてゼロショットと少数ショットのアプローチを用いてコンテキストを検出するContextVLMというフレームワークを提案する。
ContextVLMは、我々のデータセット上で95%以上の精度で、関連する駆動コンテキストを確実に検出することができる。
論文 参考訳(メタデータ) (2024-08-30T23:59:12Z) - Separating the "Chirp" from the "Chat": Self-supervised Visual Grounding of Sound and Language [77.33458847943528]
DenseAVは、ビデオ視聴のみで高解像度、意味論的、音声視覚的に整合した特徴を学習する、新しいデュアルエンコーダ基盤アーキテクチャである。
そこで本研究では,DenseAVによる単語の「意味」と音の「位置」の特定が可能であることを明らかにした。
論文 参考訳(メタデータ) (2024-06-09T03:38:21Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - BAVS: Bootstrapping Audio-Visual Segmentation by Integrating Foundation
Knowledge [43.92428145744478]
音声・視覚のセグメンテーションを行う2段階のブートストラップフレームワークを提案する。
第1段階では,視覚データから潜在的聴覚オブジェクトを局所化するためにセグメンテーションモデルを用いる。
第2段階では、音響-視覚的セマンティック統合戦略(AVIS)を開発し、音響-音響オブジェクトをローカライズする。
論文 参考訳(メタデータ) (2023-08-20T06:48:08Z) - Audiovisual Masked Autoencoders [93.22646144125457]
我々は,音声視覚下層分類タスクにおいて,大幅な改善が達成できることを示す。
また,Epic Kitchens における最先端オーディオ映像の表現の伝達性について述べる。
論文 参考訳(メタデータ) (2022-12-09T17:34:53Z) - Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder)
我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文 参考訳(メタデータ) (2022-10-02T07:29:57Z) - AVATAR: Unconstrained Audiovisual Speech Recognition [75.17253531162608]
本稿では,ASR TrAnsformeR (AVATAR) を用いて,スペクトルとフルフレームRGBからエンドツーエンドにトレーニングした新しいシーケンス・ツー・シーケンスASR TrAnsformeRを提案する。
本稿では,ハウ2 AV-ASR ベンチマークにおける視覚的モダリティの寄与を,特にシミュレートノイズの存在下で実証する。
また、我々はAV-ASRのための新しい実世界テストベッドVisSpeechを作成し、挑戦的な音声条件下での視覚的モダリティの寄与を実証した。
論文 参考訳(メタデータ) (2022-06-15T17:33:19Z) - Towards Robust Real-time Audio-Visual Speech Enhancement [8.183895606832623]
本稿では低レイテンシ話者非依存型AVSEのための新しいフレームワークを提案する。
特に, AV SEにおける視覚的不完全性の現実的問題に対処するために, GAN(Generative Adversarial Network)を提案する。
我々は、より堅牢なSEを提供するために、GANから出力されるクリーンな視覚音声を考慮に入れた、ディープニューラルネットワークに基づくリアルタイムAVSEモデルを提案する。
論文 参考訳(メタデータ) (2021-12-16T17:54:45Z) - AVA-AVD: Audio-visual Speaker Diarization in the Wild [26.97787596025907]
既存のオーディオ視覚ダイアリゼーションデータセットは主に会議室やニューススタジオのような屋内環境に焦点を当てている。
本稿では,視覚情報に基づいて識別情報をキャプチャする効果的なモータリティマスクを導入した新しいオーディオ・ビジュアル・リレーション・ネットワーク(AVR-Net)を提案する。
論文 参考訳(メタデータ) (2021-11-29T11:02:41Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。