論文の概要: Audio Interval Retrieval using Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2109.09906v1
- Date: Tue, 21 Sep 2021 01:32:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-23 00:48:05.374504
- Title: Audio Interval Retrieval using Convolutional Neural Networks
- Title(参考訳): 畳み込みニューラルネットワークを用いた音声区間検索
- Authors: Ievgeniia Kuzminykh, Dan Shevchuk, Stavros Shiaeles, Bogdan Ghita
- Abstract要約: 本稿では,自然言語クエリに基づく音声イベント検索の可能性を検討することを目的とする。
特に、オーディオサンプルを自動的に分類するために、YamNet、AlexNet、ResNet-50の事前訓練モデルに焦点を当てます。
結果,ベンチマークモデルの性能は同等であり,YamNetは他の2モデルよりも若干優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern streaming services are increasingly labeling videos based on their
visual or audio content. This typically augments the use of technologies such
as AI and ML by allowing to use natural speech for searching by keywords and
video descriptions. Prior research has successfully provided a number of
solutions for speech to text, in the case of a human speech, but this article
aims to investigate possible solutions to retrieve sound events based on a
natural language query, and estimate how effective and accurate they are. In
this study, we specifically focus on the YamNet, AlexNet, and ResNet-50
pre-trained models to automatically classify audio samples using their
respective melspectrograms into a number of predefined classes. The predefined
classes can represent sounds associated with actions within a video fragment.
Two tests are conducted to evaluate the performance of the models on two
separate problems: audio classification and intervals retrieval based on a
natural language query. Results show that the benchmarked models are comparable
in terms of performance, with YamNet slightly outperforming the other two
models. YamNet was able to classify single fixed-size audio samples with 92.7%
accuracy and 68.75% precision while its average accuracy on intervals retrieval
was 71.62% and precision was 41.95%. The investigated method may be embedded
into an automated event marking architecture for streaming services.
- Abstract(参考訳): 現代のストリーミングサービスは、そのビジュアルコンテンツやオーディオコンテンツに基づいて、ビデオにラベルを付けている。
これは典型的には、キーワードやビデオ記述による検索に自然言語を使用することで、AIやMLなどのテクノロジの使用を拡大する。
先行研究は、人間の発話の場合、音声からテキストへのソリューションを多数提供してきたが、本稿は、自然言語クエリに基づいて音声イベントを検索し、その有効性と正確性を評価することを目的としている。
本研究では,YamNet,AlexNet,ResNet-50の事前学習モデルに着目し,それぞれのメルスペクトログラムを用いて音声サンプルを予め定義された多数のクラスに自動分類する。
事前に定義されたクラスは、ビデオフラグメント内のアクションに関連する音を表現できる。
自然言語クエリに基づく音声分類と区間検索の2つの異なる問題に対して,モデルの性能を評価するために2つの試験を行った。
結果,ベンチマークモデルの性能は同等であり,YamNetは他の2モデルよりも若干優れていた。
YamNetは92.7%の精度と68.75%の精度で単一の固定サイズのオーディオサンプルを分類することができたが、間隔検索の平均精度は71.62%、精度は41.95%であった。
本手法は,ストリーミングサービス用の自動イベントマーキングアーキテクチャに組み込むことができる。
関連論文リスト
- Machine Learning Framework for Audio-Based Content Evaluation using MFCC, Chroma, Spectral Contrast, and Temporal Feature Engineering [0.0]
そこで本研究では,YouTube上の音楽カバーの音声サンプルと,オリジナル曲の音声とユーザコメントからの感情スコアを含むデータセットを構築した。
我々のアプローチは、広範囲な事前処理、音声信号を30秒のウィンドウに分割し、高次元の特徴表現を抽出することである。
回帰モデルを用いて感情スコアを0-100スケールで予測し,それぞれ3.420,5.482,2.783,4.212の根平均二乗誤差(RMSE)値を達成する。
論文 参考訳(メタデータ) (2024-10-31T20:26:26Z) - Qifusion-Net: Layer-adapted Stream/Non-stream Model for End-to-End Multi-Accent Speech Recognition [1.0690007351232649]
本稿では,ターゲットアクセントに関する事前知識を必要としないQifusion-Netと呼ばれる層適応核融合モデルを提案する。
実験の結果,提案手法は,複数のアクセントテストデータセットに対して,22.1$%と17.2$%の文字誤り率(CER)を相対的に低減し,ベースラインを上回った。
論文 参考訳(メタデータ) (2024-07-03T11:35:52Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - Detecting Speech Abnormalities with a Perceiver-based Sequence
Classifier that Leverages a Universal Speech Model [4.503292461488901]
いくつかの神経疾患の音声反射異常を検出するPerceiver-based sequenceを提案する。
このシーケンスとUniversal Speech Model (USM)を組み合わせ、1200万時間に及ぶ多様な音声録音をトレーニング(教師なし)する。
我々のモデルは標準変圧器 (80.9%) および知覚器 (81.8%) モデルより優れ、平均精度は83.1%である。
論文 参考訳(メタデータ) (2023-10-16T21:07:12Z) - Perception Test: A Diagnostic Benchmark for Multimodal Video Models [78.64546291816117]
本稿では,事前学習したマルチモーダルモデルの知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークを提案する。
知覚テストは、スキル(記憶、抽象化、物理学、セマンティックス)と、ビデオ、オーディオ、テキストモダリティ間の推論(記述的、説明的、予測的、反ファクト的)のタイプに焦点を当てている。
このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。
論文 参考訳(メタデータ) (2023-05-23T07:54:37Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks [20.316239155843963]
本稿では,音声表現学習手法を提案し,それを下流の音声非音声タスクに適用する。
AudioSetベンチマークでは、平均平均精度(mAP)スコアが0.415に達しています。
論文 参考訳(メタデータ) (2021-10-14T12:32:40Z) - Seeing wake words: Audio-visual Keyword Spotting [103.12655603634337]
KWS-Netは、類似マップ中間表現を用いてタスクをシーケンスマッチングとパターン検出に分離する新しい畳み込みアーキテクチャである。
本手法は他の言語,特にフランス語とドイツ語に一般化し,より少ない言語データで英語に匹敵する性能が得られることを示す。
論文 参考訳(メタデータ) (2020-09-02T17:57:38Z) - NAViDAd: A No-Reference Audio-Visual Quality Metric Based on a Deep
Autoencoder [0.0]
ディープオートエンコーダ(NAViDAd)に基づく非参照音声品質指標を提案する。
このモデルは、ディープオートエンコーダ層と分類層を含む2層フレームワークによって構成される。
このモデルは、UnB-AVとLiveNetflix-IIデータベースでテストするとうまく動作した。
論文 参考訳(メタデータ) (2020-01-30T15:40:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。