論文の概要: Knowing When to Quit: Probabilistic Early Exits for Speech Separation
- arxiv url: http://arxiv.org/abs/2507.09768v2
- Date: Sun, 20 Jul 2025 18:30:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 12:28:43.127499
- Title: Knowing When to Quit: Probabilistic Early Exits for Speech Separation
- Title(参考訳): いつクイットするかを知る: 音声分離のための確率論的早期排他
- Authors: Kenny Falkær Olsen, Mads Østergaard, Karl Ulbæk, Søren Føns Nielsen, Rasmus Malik Høegh Lindrup, Bjørn Sand Jensen, Morten Mørup,
- Abstract要約: 本稿では,早期に発声可能な音声分離のためのニューラルネットワークアーキテクチャを提案する。
我々は,多くの計算・パラメータの予算で訓練された最先端モデルと,1つの早期排他モデルが競合可能であることを示す。
- 参考スコア(独自算出の注目度): 2.840381306234341
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, deep learning-based single-channel speech separation has improved considerably, in large part driven by increasingly compute- and parameter-efficient neural network architectures. Most such architectures are, however, designed with a fixed compute and parameter budget, and consequently cannot scale to varying compute demands or resources, which limits their use in embedded and heterogeneous devices such as mobile phones and hearables. To enable such use-cases we design a neural network architecture for speech separation capable of early-exit, and we propose an uncertainty-aware probabilistic framework to jointly model the clean speech signal and error variance which we use to derive probabilistic early-exit conditions in terms of desired signal-to-noise ratios. We evaluate our methods on both speech separation and enhancement tasks, and we show that a single early-exit model can be competitive with state-of-the-art models trained at many compute and parameter budgets. Our framework enables fine-grained dynamic compute-scaling of speech separation networks while achieving state-of-the-art performance and interpretable exit conditions.
- Abstract(参考訳): 近年、深層学習に基づく単一チャネル音声分離が大幅に改善され、主に計算効率とパラメータ効率が向上しているニューラルネットワークアーキテクチャによって推進されている。
しかし、そのようなアーキテクチャのほとんどは固定された計算とパラメータの予算で設計されており、したがって様々な計算要求やリソースにスケールできないため、携帯電話や可聴器のような組み込みデバイスや異種デバイスでは使用が制限される。
このようなユースケースを実現するために、早期終了が可能な音声分離のためのニューラルネットワークアーキテクチャを設計し、所望の信号-雑音比で確率的早期終了条件を導出するために使用するクリーン音声信号と誤り分散を共同でモデル化する不確実性を考慮した確率的枠組みを提案する。
音声分離と拡張タスクの両面での手法の評価を行い、多くの計算・パラメーター予算で訓練された最先端モデルと1つの早期終了モデルが競合可能であることを示す。
我々のフレームワークは、最先端の性能と解釈可能な終了条件を達成しつつ、音声分離ネットワークのきめ細かい動的スケーリングを可能にする。
関連論文リスト
- Splitformer: An improved early-exit architecture for automatic speech recognition on edge devices [11.05223262950967]
音声認識ソフトウェアは、リソースを意識した推論中にニューラルネットワークの計算負荷を調整する必要がある。
早期の外部アーキテクチャは、入力をレイヤのサブセットで処理し、中間ブランチで終了する。
自動音声認識アプリケーションには、可変フレームレート分析を適用するメモリ効率のよいニューラルアーキテクチャがある。
このようにして、標準ベンチマークにおける音声認識性能は、モデルパラメータの総数の増加を少なく抑えて大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-06-22T13:34:18Z) - Latent Diffusion Model Based Denoising Receiver for 6G Semantic Communication: From Stochastic Differential Theory to Application [55.42071552739813]
生成人工知能(GAI)を利用した新しい意味コミュニケーションフレームワークを提案する。
意味的特徴抽出のための変分オートエンコーダを組み合わせた潜在拡散モデル(LDM)に基づくセマンティックコミュニケーションフレームワークを提案する。
提案システムはゼロショットの一般化をサポートし,低SNRおよびアウト・オブ・ディストリビューション条件下での優れた性能を実現する訓練自由フレームワークである。
論文 参考訳(メタデータ) (2025-06-06T03:20:32Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Unsupervised Composable Representations for Audio [0.9888599167642799]
現在の生成モデルは高品質な人工物を生成することができるが、構成的推論に苦しむことが示されている。
本稿では,音楽データに対する合成表現学習の課題,特に教師なし設定を対象とする問題に焦点をあてる。
本稿では、フレキシブルな自動符号化目的によって定義される、明示的な構成帰納バイアスを利用するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-19T08:41:09Z) - Discrete Neural Algorithmic Reasoning [18.497863598167257]
本稿では,有限状態の組合せとして,ニューラル推論器に実行軌跡の維持を強制することを提案する。
アルゴリズムの状態遷移の監督で訓練されたモデルでは、元のアルゴリズムと完全に整合することができる。
論文 参考訳(メタデータ) (2024-02-18T16:03:04Z) - Training dynamic models using early exits for automatic speech
recognition on resource-constrained devices [15.879328412777008]
初期のアーキテクチャは、そのサイズとアーキテクチャを様々なレベルの計算リソースとASRパフォーマンス要求に適応できる動的モデルの開発を可能にする。
また,スクラッチからトレーニングした早期退避モデルは,エンコーダ層が少ない場合に性能を保ちつつ,単一退避モデルや事前学習モデルと比較してタスク精度が向上することを示した。
結果は、ASRモデルの早期アーキテクチャのトレーニングダイナミクスに関する洞察を与える。
論文 参考訳(メタデータ) (2023-09-18T07:45:16Z) - Exploiting Temporal Structures of Cyclostationary Signals for
Data-Driven Single-Channel Source Separation [98.95383921866096]
単一チャネルソース分離(SCSS)の問題点について検討する。
我々は、様々なアプリケーション領域に特に適するサイクロ定常信号に焦点を当てる。
本稿では,最小MSE推定器と競合するU-Netアーキテクチャを用いたディープラーニング手法を提案する。
論文 参考訳(メタデータ) (2022-08-22T14:04:56Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - CDLNet: Robust and Interpretable Denoising Through Deep Convolutional
Dictionary Learning [6.6234935958112295]
unrolled optimization networksは、ディープニューラルネットワークを構築するための解釈可能な代替案を提案する。
提案したモデルが,同様のパラメータ数にスケールすると,最先端のデノイジングモデルに勝ることを示す。
論文 参考訳(メタデータ) (2021-03-05T01:15:59Z) - Firearm Detection via Convolutional Neural Networks: Comparing a
Semantic Segmentation Model Against End-to-End Solutions [68.8204255655161]
武器の脅威検出とライブビデオからの攻撃的な行動は、潜在的に致命的な事故の迅速検出と予防に使用できる。
これを実現する一つの方法は、人工知能と、特に画像分析のための機械学習を使用することです。
従来のモノリシックなエンド・ツー・エンドのディープラーニングモデルと、セマンティクスセグメンテーションによって火花を検知する単純なニューラルネットワークのアンサンブルに基づく前述したモデルを比較した。
論文 参考訳(メタデータ) (2020-12-17T15:19:29Z) - Dataless Model Selection with the Deep Frame Potential [45.16941644841897]
ネットワークをその固有の能力で定量化し、ユニークでロバストな表現を行う。
本稿では,表現安定性にほぼ関係するが,ネットワーク構造にのみ依存する最小限のコヒーレンス尺度であるディープフレームポテンシャルを提案する。
モデル選択の基準としての利用を検証するとともに,ネットワークアーキテクチャの多種多様な残差および密結合化について,一般化誤差との相関性を示す。
論文 参考訳(メタデータ) (2020-03-30T23:27:25Z) - Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。
このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できる
このモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文 参考訳(メタデータ) (2020-03-13T13:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。