論文の概要: CATSE: A Context-Aware Framework for Causal Target Sound Extraction
- arxiv url: http://arxiv.org/abs/2403.14246v1
- Date: Thu, 21 Mar 2024 09:06:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 14:57:51.288610
- Title: CATSE: A Context-Aware Framework for Causal Target Sound Extraction
- Title(参考訳): CATSE: 因果的音源抽出のためのコンテキスト認識フレームワーク
- Authors: Shrishail Baligar, Mikolaj Kegler, Bryce Irvin, Marko Stamenovic, Shawn Newsam,
- Abstract要約: 本稿では,リアルタイム処理に適したコンテキスト対応低遅延因果TSEモデルについて紹介する。
提案したモデルでは,リアルタイムTSEのための最先端モデルであるWaveformerが,サイズおよびレイテンシにマッチしたウェーブフォーマーよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 2.741826749835854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Target Sound Extraction (TSE) focuses on the problem of separating sources of interest, indicated by a user's cue, from the input mixture. Most existing solutions operate in an offline fashion and are not suited to the low-latency causal processing constraints imposed by applications in live-streamed content such as augmented hearing. We introduce a family of context-aware low-latency causal TSE models suitable for real-time processing. First, we explore the utility of context by providing the TSE model with oracle information about what sound classes make up the input mixture, where the objective of the model is to extract one or more sources of interest indicated by the user. Since the practical applications of oracle models are limited due to their assumptions, we introduce a composite multi-task training objective involving separation and classification losses. Our evaluation involving single- and multi-source extraction shows the benefit of using context information in the model either by means of providing full context or via the proposed multi-task training loss without the need for full context information. Specifically, we show that our proposed model outperforms size- and latency-matched Waveformer, a state-of-the-art model for real-time TSE.
- Abstract(参考訳): ターゲット音抽出(TSE)は、入力混合物からユーザのキューによって示される関心源を分離する問題に焦点を当てている。
既存のソリューションの多くはオフラインで動作しており、拡張補聴器のようなライブストリーミングコンテンツのアプリケーションによって課される低レイテンシ因果処理の制約には適していない。
本稿では,リアルタイム処理に適したコンテキスト対応低遅延因果TSEモデルについて紹介する。
まず,TSEモデルに入力混合物を構成する音響クラスに関する情報を付加し,ユーザが提示する1つ以上の利害源を抽出することを目的とする。
オラクルモデルの実用的応用は仮定上限定されているため,分離と分類損失を含む複合マルチタスク学習目標を導入する。
単一およびマルチソース抽出による評価は、完全なコンテキストを提供する方法と、完全なコンテキスト情報を必要としないマルチタスクトレーニング損失によって、モデル内でコンテキスト情報を使用することの利点を示す。
具体的には,提案したモデルが,リアルタイムTSEのための最先端モデルであるWaveformerと遅延マッチングしたWaveformerより優れていることを示す。
関連論文リスト
- Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト・イズ・キー (Context is Key) (CiK) は、時系列予測ベンチマークであり、様々な種類のテキストコンテキストと数値データをペアリングする。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
実験では、文脈情報の導入の重要性を強調し、LLMに基づく予測モデルを用いた場合の驚くべき性能を示すとともに、それらの重要な欠点を明らかにした。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - FIARSE: Model-Heterogeneous Federated Learning via Importance-Aware Submodel Extraction [26.26211464623954]
Federated Importance-Aware Submodel extract (FIARSE)は、モデルパラメータの重要性に基づいて、サブモデルを動的に調整する新しいアプローチである。
既存の研究と比較して,提案手法はサブモデル抽出の理論的基礎を提供する。
提案したFIARSEの優れた性能を示すため,様々なデータセットで大規模な実験を行った。
論文 参考訳(メタデータ) (2024-07-28T04:10:11Z) - Discourse-Aware In-Context Learning for Temporal Expression Normalization [7.621550020607368]
本研究では、TE正規化のためのプロプライエタリおよびオープンソースの大規模言語モデル(LLM)の実現可能性について検討する。
ウィンドウベースのプロンプト設計アプローチを用いることで、モデルを訓練することなくLLM知識を活用しながら、文間でTE正規化を行うことができる。
この課題のために設計されたモデルに対する競争結果を示す実験を行った。
論文 参考訳(メタデータ) (2024-04-11T14:13:44Z) - Explore In-Context Segmentation via Latent Diffusion Models [132.26274147026854]
潜在拡散モデル(LDM)は、文脈内セグメンテーションに有効な最小限のモデルである。
画像とビデオの両方のデータセットを含む、新しい、公正なコンテキスト内セグメンテーションベンチマークを構築します。
論文 参考訳(メタデータ) (2024-03-14T17:52:31Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Low-shot Object Learning with Mutual Exclusivity Bias [27.67152913041082]
本稿では,相互排他バイアスの計算フレーミングであるLSME(Low-shot Object Learning with Mutual Exclusivity Bias)を紹介する。
我々は、MLコミュニティがこの挑戦的な学習課題に対処できるように、新しいデータセット、包括的なベースライン、最先端の手法を提供する。
論文 参考訳(メタデータ) (2023-12-06T14:54:10Z) - Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual
Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。
DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。
提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2023-11-09T05:24:20Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z) - Discriminative Multimodal Learning via Conditional Priors in Generative
Models [21.166519800652047]
本研究は,モデルトレーニングにおいて,すべてのモダリティとクラスラベルが利用できる現実的なシナリオについて研究する。
このシナリオでは、変動的な下界境界は、結合表現と欠測モダリティの間の相互情報を制限する。
論文 参考訳(メタデータ) (2021-10-09T17:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。