論文の概要: Fast Audio Codec Identification Using Overlapping LCS
- arxiv url: http://arxiv.org/abs/2502.00950v3
- Date: Tue, 11 Feb 2025 18:24:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:02:54.310101
- Title: Fast Audio Codec Identification Using Overlapping LCS
- Title(参考訳): 重なり合うLCSを用いた高速オーディオコーデック同定
- Authors: Farzane Jafari,
- Abstract要約: 本稿では,重なり合う長大な共通部分文字列とサブシーケンスから派生した特徴に基づく音声分類手法を提案する。
8KBパケットに対して97%の精度を達成したシミュレーション結果は,従来の手法よりも提案手法の方が優れていることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Audio data are widely exchanged over telecommunications networks. Due to the limitations of network resources, these data are typically compressed before transmission. Various methods are available for compressing audio data. To access such audio information, it is first necessary to identify the codec used for compression. One of the most effective approaches for audio codec identification involves analyzing the content of received packets. In these methods, statistical features extracted from the packets are utilized to determine the codec employed. This paper proposes a novel method for audio codec classification based on features derived from the overlapped longest common sub-string and sub-sequence (LCS). The simulation results, which achieved an accuracy of 97% for 8 KB packets, demonstrate the superiority of the proposed method over conventional approaches. This method divides each 8 KB packet into fifteen 1 KB packets with a 50% overlap. The results indicate that this division has no significant impact on the simulation outcomes, while significantly speeding up the feature extraction, being eight times faster than the traditional method for extracting LCS features.
- Abstract(参考訳): 音声データは、通信網を介して広く交換されている。
ネットワークリソースの制限のため、これらのデータは典型的には送信前に圧縮される。
音声データの圧縮には様々な方法がある。
このような音声情報にアクセスするためには、まず圧縮に用いるコーデックを特定する必要がある。
オーディオコーデック識別の最も効果的なアプローチの1つは、受信パケットの内容を分析することである。
これらの手法では,パケットから抽出した統計的特徴を利用して,使用するコーデックを判定する。
本稿では,重なり合う長大なコモンストリングとサブシーケンス(LCS)から派生した特徴に基づく音声コーデック分類手法を提案する。
8KBパケットに対して97%の精度を達成したシミュレーション結果は,従来の手法よりも提案手法の方が優れていることを示す。
この方法は、各8KBのパケットを50%オーバーラップした15個の1KBのパケットに分割する。
その結果, 従来のLCS特徴抽出手法の8倍の速度で, 特徴抽出を著しく高速化する一方で, シミュレーション結果に有意な影響を与えないことが示唆された。
関連論文リスト
- Audio Codec Augmentation for Robust Collaborative Watermarking of Speech Synthesis [9.48476556434306]
本稿では,従来の音声コーデックとニューラルオーディオコーデックを併用するために,チャネル拡張を拡張した。
リスニングテストでは、8kbpsの高コーデックやDACで、協調的な透かしが知覚上の劣化を無視できることを示した。
論文 参考訳(メタデータ) (2024-09-20T10:33:17Z) - VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - Edge Storage Management Recipe with Zero-Shot Data Compression for Road
Anomaly Detection [1.4563998247782686]
本研究では,高忠実度音声を保存しながら,効率的なストレージ管理手法を提案する。
収集した高解像度オーディオをコンパクトなコードに符号化する計算ファイル圧縮手法を推奨する。
そこで本研究では,単純かつ効果的なオートエンコーダに基づくデータ圧縮手法を提案する。
論文 参考訳(メタデータ) (2023-07-10T01:30:21Z) - Efficient Audio Captioning Transformer with Patchout and Text Guidance [74.59739661383726]
本稿では, [1] で提案した Patchout を利用したフルトランスフォーマーアーキテクチャを提案する。
キャプション生成は、事前訓練された分類モデルにより抽出されたテキストオーディオセットタグに部分的に条件付けされる。
提案手法は,DCASE Challenge 2022のタスク6Aで審査員賞を受賞している。
論文 参考訳(メタデータ) (2023-04-06T07:58:27Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Latent-Domain Predictive Neural Speech Coding [22.65761249591267]
本稿では,VQ-VAEフレームワークに潜在ドメイン予測符号化を導入する。
本稿では,低レイテンシなニューラル音声符号化のためのTF-Codecをエンドツーエンドで提案する。
多言語音声データセットの主観的な結果から、低レイテンシでは1kbpsのTF-Codecは9kbpsよりも大幅に品質が向上することが示された。
論文 参考訳(メタデータ) (2022-07-18T03:18:08Z) - Interactive Audio-text Representation for Automated Audio Captioning
with Contrastive Learning [25.06635361326706]
インタラクティブなモダリティ表現を学習するための,CLIP-AACと呼ばれる新しいAACシステムを提案する。
提案するCLIP-AACでは,事前学習エンコーダにオーディオヘッドとテキストヘッドを導入し,音声テキスト情報を抽出する。
また、音声信号と2つの字幕の対応を学習することで、ドメイン差を狭めるためにコントラスト学習を適用する。
論文 参考訳(メタデータ) (2022-03-29T13:06:46Z) - Local Information Assisted Attention-free Decoder for Audio Captioning [52.191658157204856]
本稿では,PANNをベースとしたエンコーダを音声特徴抽出に用いるアテンションフリーデコーダを用いたAAC手法を提案する。
提案手法は,音声信号からグローバル情報とローカル情報の両方を効果的に利用することができる。
論文 参考訳(メタデータ) (2022-01-10T08:55:52Z) - SoundStream: An End-to-End Neural Audio Codec [78.94923131038682]
本稿では,音声,音楽,一般音声を効率よく圧縮できる新しいニューラルオーディオシステムSoundStreamを紹介する。
SoundStreamは完全な畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器に頼っている。
エンコーダまたはデコーダ側で、追加のレイテンシなしで、共同圧縮と拡張を行うことができます。
論文 参考訳(メタデータ) (2021-07-07T15:45:42Z) - WaveTransformer: A Novel Architecture for Audio Captioning Based on
Learning Temporal and Time-Frequency Information [20.153258692295278]
本稿では,音声における時間的・時間的パターンの活用に焦点を当てた新しいAAC手法を提案する。
音声符号化には3つの学習可能なプロセスを使用し、2つは局所的および時間的情報を抽出し、もう1つは前の2つのプロセスの出力をマージする。
これまでに報告された最も高いSPIDErは16.2から17.3に増加した。
論文 参考訳(メタデータ) (2020-10-21T16:02:25Z) - End-to-End Automatic Speech Recognition Integrated With CTC-Based Voice
Activity Detection [48.80449801938696]
本稿では,音声活動検出機能とエンドツーエンドの自動音声認識を統合する。
我々は,コネクショニストの時間的分類(CTC)と,同期/アテンションの拡張に焦点を当てた。
簡単なしきい値を用いた音声区間検出のためのキューとしてラベルを用いる。
論文 参考訳(メタデータ) (2020-02-03T03:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。