論文の概要: Joint Speech Activity and Overlap Detection with Multi-Exit Architecture
- arxiv url: http://arxiv.org/abs/2209.11906v1
- Date: Sat, 24 Sep 2022 02:34:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 14:20:59.655137
- Title: Joint Speech Activity and Overlap Detection with Multi-Exit Architecture
- Title(参考訳): マルチエクイットアーキテクチャを用いた共同音声活動とオーバーラップ検出
- Authors: Ziqing Du, Kai Liu, Xucheng Wan, Huan Zhou
- Abstract要約: オーバーラップ音声検出(OSD)は、多人数変換のシナリオにおける音声応用において重要である。
本研究は,新たな視点からVADとOSDの共同作業について検討する。
特に,従来の分類網をマルチエグジットアーキテクチャで拡張することを提案する。
- 参考スコア(独自算出の注目度): 5.4878772986187565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Overlapped speech detection (OSD) is critical for speech applications in
scenario of multi-party conversion. Despite numerous research efforts and
progresses, comparing with speech activity detection (VAD), OSD remains an open
challenge and its overall performance is far from satisfactory. The majority of
prior research typically formulates the OSD problem as a standard
classification problem, to identify speech with binary (OSD) or three-class
label (joint VAD and OSD) at frame level. In contrast to the mainstream, this
study investigates the joint VAD and OSD task from a new perspective. In
particular, we propose to extend traditional classification network with
multi-exit architecture. Such an architecture empowers our system with unique
capability to identify class using either low-level features from early exits
or high-level features from last exit. In addition, two training schemes,
knowledge distillation and dense connection, are adopted to further boost our
system performance. Experimental results on benchmark datasets (AMI and
DIHARD-III) validated the effectiveness and generality of our proposed system.
Our ablations further reveal the complementary contribution of proposed
schemes. With $F_1$ score of 0.792 on AMI and 0.625 on DIHARD-III, our proposed
system outperforms several top performing models on these datasets, but also
surpasses the current state-of-the-art by large margins across both datasets.
Besides the performance benefit, our proposed system offers another appealing
potential for quality-complexity trade-offs, which is highly preferred for
efficient OSD deployment.
- Abstract(参考訳): オーバーラップ音声検出(OSD)は、多人数変換のシナリオにおける音声応用において重要である。
多くの研究努力と進歩にもかかわらず、音声活動検出(VAD)と比較すると、OSDは依然としてオープンな課題であり、全体的な性能は十分ではない。
先行研究の大多数は、標準分類問題としてOSD問題を定式化し、フレームレベルでバイナリ(OSD)または3クラスラベル(VADとOSD)を識別する。
本研究は,本研究の主流とは対照的に,新たな視点からvadとosdの共同作業について検討する。
特に,マルチエクイットアーキテクチャを用いた従来の分類ネットワークの拡張を提案する。
このようなアーキテクチャは,早期終了時の低レベル機能と最終終了時の高レベル機能のいずれかを使用して,クラスを識別するユニークな機能をシステムに提供する。
さらに, システム性能を高めるために, 知識蒸留と密接な接続という2つの訓練手法を採用した。
ベンチマークデータセット(AMIとDIHARD-III)による実験結果から,提案システムの有効性と汎用性を検証した。
さらに,提案手法の補完的貢献も明らかにした。
AMIで0.792ドル、DIHARD-IIIで0.625ドルという価格で、提案システムはこれらのデータセットでいくつかのトップパフォーマンスモデルよりも優れています。
性能上のメリットに加えて,提案システムでは,OSDの効率的な展開に好適な品質・複雑さトレードオフの可能性も備えている。
関連論文リスト
- Tailored Design of Audio-Visual Speech Recognition Models using Branchformers [0.0]
本稿では,パラメータ効率の高い音声認識システムの設計のための新しいフレームワークを提案する。
より正確に言うと、提案するフレームワークは、まず、音声のみのシステムとビデオのみのシステムを推定し、次に、カスタマイズされたオーディオ視覚統合エンコーダを設計する。
その結果、我々のAVSRシステムがどのように最先端の認識率に到達できるかが反映された。
論文 参考訳(メタデータ) (2024-07-09T07:15:56Z) - Distilling Aggregated Knowledge for Weakly-Supervised Video Anomaly Detection [11.250490586786878]
ビデオ異常検出は、監視ビデオにおける異常事象を識別できる自動モデルを開発することを目的としている。
集約表現から比較的単純なモデルに知識を蒸留することで,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2024-06-05T00:44:42Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Joint speech and overlap detection: a benchmark over multiple audio
setup and speech domains [0.0]
VADとOSDは多クラス分類モデルを用いて共同で訓練することができる。
本稿では,様々なVADモデルとOSDモデルの完全かつ新しいベンチマークを提案する。
我々の2/3クラスシステムは、時間的畳み込みネットワークと設定に適応した音声表現を組み合わせることで、最先端の結果より優れています。
論文 参考訳(メタデータ) (2023-07-24T14:29:21Z) - HKNAS: Classification of Hyperspectral Imagery Based on Hyper Kernel
Neural Architecture Search [104.45426861115972]
設計したハイパーカーネルを利用して,構造パラメータを直接生成することを提案する。
我々は1次元または3次元の畳み込みを伴う画素レベルの分類と画像レベルの分類を別々に行う3種類のネットワークを得る。
6つの公開データセットに関する一連の実験は、提案手法が最先端の結果を得ることを示した。
論文 参考訳(メタデータ) (2023-04-23T17:27:40Z) - Efficient Person Search: An Anchor-Free Approach [86.45858994806471]
パーソンサーチは、クエリーの人物を、リアルで切り刻まれていない画像から、同時にローカライズし、識別することを目的としている。
この目標を達成するために、最先端モデルは通常、Faster R-CNNのような2段階検出器にre-idブランチを追加する。
本研究では,この課題に対処するためのアンカーフリーな手法を提案する。
論文 参考訳(メタデータ) (2021-09-01T07:01:33Z) - Disentangle Your Dense Object Detector [82.22771433419727]
深層学習に基づく高密度物体検出器はここ数年で大きな成功を収め、ビデオ理解などのマルチメディアアプリケーションにも応用されてきた。
しかし、現在の高密度検出器の訓練パイプラインは、保持できない多くの接続に妥協されている。
そこで本研究では, 簡易かつ効果的な遠心分離機構を設計し, 現在の最先端検出器に統合するDED(Disentangled Dense Object Detector)を提案する。
論文 参考訳(メタデータ) (2021-07-07T00:52:16Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Improving Point Cloud Semantic Segmentation by Learning 3D Object
Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。
現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。
Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-22T14:17:40Z) - Improving Embedding Extraction for Speaker Verification with Ladder
Network [8.843122009658252]
最近の話者検証(SV)システムは、ディープニューラルネットワークを使って高レベルの埋め込みを抽出している。
本稿では,教師付き学習スタイルと教師なし学習スタイルを組み合わせた,ラグネットワークフレームワークをSVシステムに適用することを提案する。
提案手法は,パラメータや拡張データを追加することなく,最大10%の性能向上を実現した。
論文 参考訳(メタデータ) (2020-03-20T07:08:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。