論文の概要: Application of Audio Fingerprinting Techniques for Real-Time Scalable Speech Retrieval and Speech Clusterization
- arxiv url: http://arxiv.org/abs/2410.21876v1
- Date: Tue, 29 Oct 2024 09:11:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 11:30:32.467963
- Title: Application of Audio Fingerprinting Techniques for Real-Time Scalable Speech Retrieval and Speech Clusterization
- Title(参考訳): リアルタイムスケーラブル音声検索と音声クラスタ化のための音声フィンガープリント技術の応用
- Authors: Kemal Altwlkany, Sead Delalić, Adis Alihodžić, Elmedin Selmanović, Damir Hasić,
- Abstract要約: 本稿では,音声検索の専門的課題に対処するため,既存の手法を応用するための新たな知見を提供する。
単一のリクエストを容易にするのではなく、バッチ処理で迅速かつ正確なオーディオ検索を実現することに注力している。
本論文は,実際の音声からテキストへの変換を行なわずに,音声によるクラスタリングを支援する手法について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Audio fingerprinting techniques have seen great advances in recent years, enabling accurate and fast audio retrieval even in conditions when the queried audio sample has been highly deteriorated or recorded in noisy conditions. Expectedly, most of the existing work is centered around music, with popular music identification services such as Apple's Shazam or Google's Now Playing designed for individual audio recognition on mobile devices. However, the spectral content of speech differs from that of music, necessitating modifications to current audio fingerprinting approaches. This paper offers fresh insights into adapting existing techniques to address the specialized challenge of speech retrieval in telecommunications and cloud communications platforms. The focus is on achieving rapid and accurate audio retrieval in batch processing instead of facilitating single requests, typically on a centralized server. Moreover, the paper demonstrates how this approach can be utilized to support audio clustering based on speech transcripts without undergoing actual speech-to-text conversion. This optimization enables significantly faster processing without the need for GPU computing, a requirement for real-time operation that is typically associated with state-of-the-art speech-to-text tools.
- Abstract(参考訳): 近年のオーディオフィンガープリント技術は大きな進歩を遂げており、クエリされたオーディオサンプルがノイズの多い状態で高度に劣化したり記録されたりした場合であっても、正確かつ高速なオーディオ検索が可能になっている。
既存の作品のほとんどは音楽を中心にしており、AppleのShazamやGoogleの Now Playingといったポピュラーな音楽識別サービスは、モバイルデバイス上の個々のオーディオ認識用に設計されている。
しかし、音声のスペクトル内容は音楽と異なり、現在の音声フィンガープリントのアプローチに修正を加える必要がある。
本稿では,通信およびクラウド通信プラットフォームにおける音声検索の課題に対処するため,既存の手法を応用するための新たな知見を提供する。
その焦点は、バッチ処理で高速で正確なオーディオ検索を実現することであり、通常は集中型サーバ上で、単一のリクエストを容易にするのではない。
さらに,本論文では,実際の音声からテキストへの変換を行なわずに,音声の書き起こしに基づくクラスタリングを支援する方法について述べる。
この最適化により、GPUコンピューティングを必要とせずに大幅に高速な処理が可能になる。
関連論文リスト
- Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition [72.22243595269389]
本稿では,テキストやビデオの入力に基づく音声生成,編集,合成のためのフレームワークであるAudio-Agentを紹介する。
VTA(Video-to-audio)タスクでは、既存のほとんどの手法では、ビデオイベントと生成されたオーディオを同期させるタイムスタンプ検出器のトレーニングが必要である。
論文 参考訳(メタデータ) (2024-10-04T11:40:53Z) - CrisperWhisper: Accurate Timestamps on Verbatim Speech Transcriptions [0.5120567378386615]
より冗長な音声の書き起こしを生成するために、モデルを微調整する。
複数の話者に対する頑健さと背景雑音を高めるために,我々はいくつかの手法を採用している。
論文 参考訳(メタデータ) (2024-08-29T14:52:42Z) - Automatic Speech Recognition for Hindi [0.6292138336765964]
この研究は、Webアプリケーションの開発と音声認識のためのWebインターフェースの設計に関するものだった。
ウェブアプリケーションは、大量のオーディオファイルとその転写を管理し、ASR転写の人間の修正を容易にする。
音声認識用Webインターフェースは、Webアプリを実行するデバイスから16kHzのモノオーディオを記録し、音声アクティビティ検出(VAD)を行い、音声認識エンジンに音声を送信する。
論文 参考訳(メタデータ) (2024-06-26T07:39:20Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Optimization of a Real-Time Wavelet-Based Algorithm for Improving Speech
Intelligibility [1.0554048699217666]
離散時間音声信号は、マルチレベル離散ウェーブレット変換を介して周波数サブバンドに分割される。
信号エネルギーを一定に保ちながらサブバンドゲインを調整する。
種々の背景干渉および模擬聴力損失条件下での音声の可聴性を向上させる。
論文 参考訳(メタデータ) (2022-02-05T13:03:57Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - VoiceFilter-Lite: Streaming Targeted Voice Separation for On-Device
Speech Recognition [60.462770498366524]
ターゲットユーザからの音声信号のみを保存するためにデバイス上で実行される単一チャネルソース分離モデルであるVoiceFilter-Liteを導入する。
本研究では,そのようなモデルを8ビット整数モデルとして量子化し,リアルタイムに実行可能であることを示す。
論文 参考訳(メタデータ) (2020-09-09T14:26:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。