論文の概要: TACNET: Temporal Audio Source Counting Network
- arxiv url: http://arxiv.org/abs/2311.02369v1
- Date: Sat, 4 Nov 2023 10:48:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 17:54:39.077319
- Title: TACNET: Temporal Audio Source Counting Network
- Title(参考訳): TACNET: テンポラルオーディオソースカウントネットワーク
- Authors: Amirreza Ahmadnejad, Ahmad Mahmmodian Darviishani, Mohmmad Mehrdad
Asadi, Sajjad Saffariyeh, Pedram Yousef, Emad Fatemizadeh
- Abstract要約: TaCNet(Temporal Audio Source Counting Network)は、オーディオソースカウントタスクの制限に対処する革新的なアーキテクチャである。
TaCNetは生のオーディオ入力を直接操作し、複雑な前処理ステップをなくす。
入力ウィンドウが切り詰められても、リアルタイムの話者カウントに優れています。
- 参考スコア(独自算出の注目度): 0.2796197251957244
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In this paper, we introduce the Temporal Audio Source Counting Network
(TaCNet), an innovative architecture that addresses limitations in audio source
counting tasks. TaCNet operates directly on raw audio inputs, eliminating
complex preprocessing steps and simplifying the workflow. Notably, it excels in
real-time speaker counting, even with truncated input windows. Our extensive
evaluation, conducted using the LibriCount dataset, underscores TaCNet's
exceptional performance, positioning it as a state-of-the-art solution for
audio source counting tasks. With an average accuracy of 74.18 percentage over
11 classes, TaCNet demonstrates its effectiveness across diverse scenarios,
including applications involving Chinese and Persian languages. This
cross-lingual adaptability highlights its versatility and potential impact.
- Abstract(参考訳): 本稿では,音声ソースカウントタスクの制限に対処する革新的なアーキテクチャであるTemporal Audio Source Counting Network(TaCNet)を紹介する。
TaCNetは生のオーディオ入力を直接操作し、複雑な前処理ステップを排除し、ワークフローを簡素化する。
特に、Truncatedの入力ウィンドウでさえ、リアルタイムの話者カウントに優れています。
LibriCountデータセットを用いて行った広範囲な評価は、TaCNetの例外的なパフォーマンスを強調し、オーディオソースカウントタスクの最先端ソリューションとして位置付ける。
11のクラスで平均74.18パーセントの精度で、TaCNetは中国語とペルシア語を含む様々なシナリオでその効果を実証している。
この言語間適応性は、その汎用性と潜在的影響を強調している。
関連論文リスト
- Efficient Streaming LLM for Speech Recognition [23.151980358518102]
SpeechLLM-XLは、ストリーミング音声認識のための線形スケーリングデコーダのみのモデルである。
訓練発話の10倍の長文発声に対して品質劣化を生じさせない。
論文 参考訳(メタデータ) (2024-10-02T01:54:35Z) - XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception [62.660135152900615]
音声認識と翻訳システムではノイズの多い入力が不十分である。
XLAVS-Rは、雑音による音声認識と翻訳のための言語間音声・視覚音声表現モデルである。
論文 参考訳(メタデータ) (2024-03-21T13:52:17Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research [82.42802570171096]
約400kの音声クリップとペアキャプションを組み合わせた,大規模な音声キャプションデータセットであるWavCapsを紹介した。
オンラインハーベストな生の記述は非常にうるさいし、自動音声キャプションなどのタスクで直接使うには適さない。
本稿では,大規模な言語モデルであるChatGPTを用いて,ノイズの多いデータをフィルタリングし,高品質なキャプションを生成するための3段階処理パイプラインを提案する。
論文 参考訳(メタデータ) (2023-03-30T14:07:47Z) - Separate What You Describe: Language-Queried Audio Source Separation [53.65665794338574]
言語問合せ音声ソース分離(LASS)の課題について紹介する。
LASSは、ターゲットソースの自然言語クエリに基づいて、ターゲットソースをオーディオミックスから分離することを目的としている。
本稿では,音響情報と言語情報を協調処理するエンドツーエンドニューラルネットワークLASS-Netを提案する。
論文 参考訳(メタデータ) (2022-03-28T23:47:57Z) - Cross-lingual Transfer for Speech Processing using Acoustic Language
Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。
現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。
本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T01:55:17Z) - Audio Interval Retrieval using Convolutional Neural Networks [0.0]
本稿では,自然言語クエリに基づく音声イベント検索の可能性を検討することを目的とする。
特に、オーディオサンプルを自動的に分類するために、YamNet、AlexNet、ResNet-50の事前訓練モデルに焦点を当てます。
結果,ベンチマークモデルの性能は同等であり,YamNetは他の2モデルよりも若干優れていた。
論文 参考訳(メタデータ) (2021-09-21T01:32:18Z) - Multitask Training with Text Data for End-to-End Speech Recognition [45.35605825009208]
本稿では,注目に基づくエンドツーエンド音声認識モデルに対するマルチタスク学習手法を提案する。
我々は、音声テキストとテキストのみのデータの両方でマルチタスクでトレーニングすることで、リスニング、アテンション、スペルモデルでデコーダを正規化する。
論文 参考訳(メタデータ) (2020-10-27T14:29:28Z) - Fine-grained Language Identification with Multilingual CapsNet Model [0.0]
多言語コンテンツの生成と消費の爆発があります。
リアルタイムおよびきめ細かいコンテンツ分析サービスの必要性が高まっている。
音声言語検出の現在の技術は、これらの前線の1つに欠けている可能性がある。
論文 参考訳(メタデータ) (2020-07-12T20:01:22Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。