Fugu-MT 論文翻訳(概要): CATSE: A Context-Aware Framework for Causal Target Sound Extraction

論文の概要: CATSE: A Context-Aware Framework for Causal Target Sound Extraction

arxiv url: http://arxiv.org/abs/2403.14246v1
Date: Thu, 21 Mar 2024 09:06:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-22 14:57:51.288610
Title: CATSE: A Context-Aware Framework for Causal Target Sound Extraction
Title（参考訳）: CATSE: 因果的音源抽出のためのコンテキスト認識フレームワーク
Authors: Shrishail Baligar, Mikolaj Kegler, Bryce Irvin, Marko Stamenovic, Shawn Newsam,
Abstract要約: 本稿では,リアルタイム処理に適したコンテキスト対応低遅延因果TSEモデルについて紹介する。提案したモデルでは,リアルタイムTSEのための最先端モデルであるWaveformerが,サイズおよびレイテンシにマッチしたウェーブフォーマーよりも優れていることを示す。
参考スコア（独自算出の注目度）: 2.741826749835854
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Target Sound Extraction (TSE) focuses on the problem of separating sources of interest, indicated by a user's cue, from the input mixture. Most existing solutions operate in an offline fashion and are not suited to the low-latency causal processing constraints imposed by applications in live-streamed content such as augmented hearing. We introduce a family of context-aware low-latency causal TSE models suitable for real-time processing. First, we explore the utility of context by providing the TSE model with oracle information about what sound classes make up the input mixture, where the objective of the model is to extract one or more sources of interest indicated by the user. Since the practical applications of oracle models are limited due to their assumptions, we introduce a composite multi-task training objective involving separation and classification losses. Our evaluation involving single- and multi-source extraction shows the benefit of using context information in the model either by means of providing full context or via the proposed multi-task training loss without the need for full context information. Specifically, we show that our proposed model outperforms size- and latency-matched Waveformer, a state-of-the-art model for real-time TSE.
Abstract（参考訳）: ターゲット音抽出(TSE)は、入力混合物からユーザのキューによって示される関心源を分離する問題に焦点を当てている。既存のソリューションの多くはオフラインで動作しており、拡張補聴器のようなライブストリーミングコンテンツのアプリケーションによって課される低レイテンシ因果処理の制約には適していない。本稿では,リアルタイム処理に適したコンテキスト対応低遅延因果TSEモデルについて紹介する。まず,TSEモデルに入力混合物を構成する音響クラスに関する情報を付加し,ユーザが提示する1つ以上の利害源を抽出することを目的とする。オラクルモデルの実用的応用は仮定上限定されているため,分離と分類損失を含む複合マルチタスク学習目標を導入する。単一およびマルチソース抽出による評価は、完全なコンテキストを提供する方法と、完全なコンテキスト情報を必要としないマルチタスクトレーニング損失によって、モデル内でコンテキスト情報を使用することの利点を示す。具体的には,提案したモデルが,リアルタイムTSEのための最先端モデルであるWaveformerと遅延マッチングしたWaveformerより優れていることを示す。

関連論文リスト

DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories [52.57197752244638]
本稿では,画像検索を自律探索タスクとして再構成する新しいエージェントパラダイムであるDeepImageSearchを紹介する。モデルは、暗黙の文脈的手がかりに基づいてターゲットを特定するために、生の視覚履歴に対して多段階の推論を計画し実行しなければならない。 DisBenchは、相互接続された視覚データ上に構築された、挑戦的なベンチマークである。
論文参考訳（メタデータ） (2026-02-11T12:51:10Z)
Refining the Information Bottleneck via Adversarial Information Separation [10.748014850495144]
限られたデータから一般化することは、物質科学のような領域のモデルにとって重要である。本稿では,タスク関連機能をノイズから分離するAdverISF(Adversarial Information Separation Framework)を提案する。本稿では,AdverISFがデータスカースシナリオにおける最先端手法より優れていることを示す。
論文参考訳（メタデータ） (2026-02-06T09:54:47Z)
TAViS: Text-bridged Audio-Visual Segmentation with Foundation Models [123.17643568298116]
本稿では,マルチモーダル基盤モデルの知識をテキスト化するための新しいフレームワークTAViSを提案する。これらのモデルを効果的に組み合わせることによって、SAM2とImageBind間の知識伝達の困難さと、監督のためにセグメンテーション損失のみを使用することの不十分さの2つの大きな課題が生じる。提案手法は,シングルソース,マルチソース,セマンティックデータセットにおいて優れた性能を示し,ゼロショット設定で優れる。
論文参考訳（メタデータ） (2025-06-13T03:19:47Z)
$C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。 MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文参考訳（メタデータ） (2025-04-01T13:01:30Z)
Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト・イズ・キー (Context is Key) (CiK) は、時系列予測ベンチマークであり、様々な種類のテキストコンテキストと数値データをペアリングする。我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。実験では、文脈情報の導入の重要性を強調し、LLMに基づく予測モデルを用いた場合の驚くべき性能を示すとともに、それらの重要な欠点を明らかにした。
論文参考訳（メタデータ） (2024-10-24T17:56:08Z)
Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文参考訳（メタデータ） (2024-09-02T22:35:03Z)
FIARSE: Model-Heterogeneous Federated Learning via Importance-Aware Submodel Extraction [26.26211464623954]
Federated Importance-Aware Submodel extract (FIARSE)は、モデルパラメータの重要性に基づいて、サブモデルを動的に調整する新しいアプローチである。既存の研究と比較して,提案手法はサブモデル抽出の理論的基礎を提供する。提案したFIARSEの優れた性能を示すため,様々なデータセットで大規模な実験を行った。
論文参考訳（メタデータ） (2024-07-28T04:10:11Z)
NeedleBench: Evaluating LLM Retrieval and Reasoning Across Varying Information Densities [51.07379913779232]
NeedleBenchは、長いコンテキストタスクにおける検索と推論のパフォーマンスを評価するためのフレームワークである。モデルの機能を厳格にテストするために、キーデータポイントをさまざまな深さに埋め込む。実験の結果,Deep-R1やOpenAIのo3のような推論モデルは,情報密度シナリオにおける連続的な検索と推論に苦労していることがわかった。
論文参考訳（メタデータ） (2024-07-16T17:59:06Z)
A Large-Scale Evaluation of Speech Foundation Models [110.95827399522204]
音声処理ユニバーサルパフォーマンスベンチマーク(SUPERB)を構築し,基礎モデルパラダイムの有効性について検討する。凍結基盤モデルを用いてSUPERBにおける音声処理タスクに対処する統合マルチタスクフレームワークを提案する。
論文参考訳（メタデータ） (2024-04-15T00:03:16Z)
Discourse-Aware In-Context Learning for Temporal Expression Normalization [7.621550020607368]
本研究では、TE正規化のためのプロプライエタリおよびオープンソースの大規模言語モデル(LLM)の実現可能性について検討する。ウィンドウベースのプロンプト設計アプローチを用いることで、モデルを訓練することなくLLM知識を活用しながら、文間でTE正規化を行うことができる。この課題のために設計されたモデルに対する競争結果を示す実験を行った。
論文参考訳（メタデータ） (2024-04-11T14:13:44Z)
Explore In-Context Segmentation via Latent Diffusion Models [132.26274147026854]
潜在拡散モデル(LDM)は、文脈内セグメンテーションに有効な最小限のモデルである。画像とビデオの両方のデータセットを含む、新しい、公正なコンテキスト内セグメンテーションベンチマークを構築します。
論文参考訳（メタデータ） (2024-03-14T17:52:31Z)
Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文参考訳（メタデータ） (2023-12-18T18:59:51Z)
Low-shot Object Learning with Mutual Exclusivity Bias [27.67152913041082]
本稿では,相互排他バイアスの計算フレーミングであるLSME(Low-shot Object Learning with Mutual Exclusivity Bias)を紹介する。我々は、MLコミュニティがこの挑戦的な学習課題に対処できるように、新しいデータセット、包括的なベースライン、最先端の手法を提供する。
論文参考訳（メタデータ） (2023-12-06T14:54:10Z)
Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。 DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文参考訳（メタデータ） (2023-11-09T05:24:20Z)
Correlation Information Bottleneck: Towards Adapting Pretrained Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文参考訳（メタデータ） (2022-09-14T22:04:10Z)
Discriminative Multimodal Learning via Conditional Priors in Generative Models [21.166519800652047]
本研究は,モデルトレーニングにおいて,すべてのモダリティとクラスラベルが利用できる現実的なシナリオについて研究する。このシナリオでは、変動的な下界境界は、結合表現と欠測モダリティの間の相互情報を制限する。
論文参考訳（メタデータ） (2021-10-09T17:22:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。