論文の概要: VorTEX: Various overlap ratio for Target speech EXtraction
- arxiv url: http://arxiv.org/abs/2603.14803v1
- Date: Mon, 16 Mar 2026 04:00:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:36.044106
- Title: VorTEX: Various overlap ratio for Target speech EXtraction
- Title(参考訳): VorTEX:ターゲット音声抽出における重複率の相違
- Authors: Ro-hoon Oh, Jihwan Seol, Bugeun Kim,
- Abstract要約: VorTEXはテキストプロンプトされたTSEアーキテクチャであり、補助正規化経路から一次抽出を分離する。
制御分析を可能にするために,重なり比を0%から100%に分散した2話者データセット PORTE を構築した。
VorTEXは20-100%の重なりで高い分離率を達成する一方、既存のモデルでは重なりの抑制や残差が示される。
- 参考スコア(独自算出の注目度): 2.9248680865344343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Target speech extraction (TSE) aims to recover a target speaker's voice from a mixture. While recent text-prompted approaches have shown promise, most approaches assume fully overlapped mixtures, limiting insight into behavior across realistic overlap ratios. We introduce VorTEX (Various overlap ratio for Target speech EXtraction), a text-prompted TSE architecture with a Decoupled Adaptive Multi-branch (DAM) Fusion block that separates primary extraction from auxiliary regularization pathways. To enable controlled analysis, we construct PORTE, a two-speaker dataset spanning overlap ratios from 0% to 100%. We further propose Suppression Ratio on Energy (SuRE), a diagnostic metric that detects suppression behavior not captured by conventional measures. Experiments show that existing models exhibit suppression or residual interference under overlap, whereas VorTEX achieves the highest separation fidelity across 20-100% overlap (e.g., 5.50 dB at 20% and 2.04 dB at 100%) while maintaining zero SuRE, indicating robust extraction without suppression-driven artifacts.
- Abstract(参考訳): ターゲット音声抽出(TSE)は、ターゲット話者の声を混合から回収することを目的としている。
最近のテキストプロンプトアプローチは有望であることを示しているが、ほとんどのアプローチは、完全に重なり合った混合を前提としており、現実的な重なり比の振る舞いに対する洞察を制限している。
本稿では,DAM (Decoupled Adaptive Multi-branch) Fusion ブロックを用いたテキストプロンプト型 TSE アーキテクチャである VorTEX (Various overlap ratio for Target Speech Extraction) を紹介する。
制御分析を可能にするために,重なり比を0%から100%に分散した2話者データセット PORTE を構築した。
さらに,従来の計測法で捉えない抑制行動を検出する診断指標であるSuppression Ratio on Energy (SuRE)を提案する。
実験の結果、既存のモデルは重なり合いの抑制や残留干渉を示すが、VorTEXは20-100%の重なり合い(20%で5.50dB、100%で2.04dB)で高い分離率を達成する一方で、SuREをゼロに保ち、抑制生成物なしで頑健な抽出を行うことを示す。
関連論文リスト
- Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity [54.95089105944234]
視覚言語モデル(VLM)は、過剰な視覚トークンの生成によって引き起こされる計算の非効率性に直面する。
2段階パイプラインを特徴とする訓練不要なSynergistic Importance-DiversityアプローチPruneSIDを提案する。
LLaVA-NeXTでは11.1%のトークン保持率で96.3%の精度、極端な圧縮速度(5.6%)で92.8%の精度を実現した。
論文 参考訳(メタデータ) (2026-03-10T10:31:58Z) - BadCLIP++: Stealthy and Persistent Backdoors in Multimodal Contrastive Learning [73.46118996284888]
マルチモーダル・コントラスト学習モデルに対するバックドア攻撃の研究は、ステルスネスと永続性という2つの大きな課題に直面している。
両課題に対処する統合フレームワークであるBadCLIP++を提案する。
ステルスネスのために,タスク関連領域付近に知覚不可能なパターンを埋め込むセマンティックフュージョンQRマイクロトリガーを導入する。
持続性については、半径縮小とセントロイドアライメントによるトリガ埋め込みを安定化する。
論文 参考訳(メタデータ) (2026-02-19T08:31:16Z) - DiMEx: Breaking the Cold Start Barrier in Data-Free Model Extraction via Latent Diffusion Priors [0.0]
モデル盗難攻撃は機械学習・アズ・ア・サービス(ML)に現実的な脅威をもたらす
我々は,事前学習した遅延拡散モデルのリッチなセマンティクスを武器とするフレームワークであるDiMExを提案し,その「コールドスタート」問題を回避した。
以上の結果から,DMEx は静的分布検出器を回避しているが,HSE はこの時間的シグネチャを利用して攻撃成功率を21.6 % に抑えることができた。
論文 参考訳(メタデータ) (2026-01-04T22:58:34Z) - GateFusion: Hierarchical Gated Cross-Modal Fusion for Active Speaker Detection [19.80016468034245]
GateFusionは、強力な事前訓練された単調エンコーダと階層型Gated Fusion Decoder(HiGate)を組み合わせた新しいアーキテクチャである。
HiGateは、Transformerのバックボーンの複数の層で、1つのモードからもう1つのモードにコンテキスト特徴を適応的に注入することで、プログレッシブで多次元の融合を可能にする。
論文 参考訳(メタデータ) (2025-12-17T18:56:52Z) - StutterFuse: Mitigating Modality Collapse in Stuttering Detection with Jaccard-Weighted Metric Learning and Gated Fusion [0.40105987447353786]
散乱検出は、拡散が重なると故障する。
既存のパラメトリックモデルは、複雑で同時的な分散を区別するのに苦労する。
マルチラベル検出のための最初のレトリーバル拡張一般化(RAC)であるStutterFuseを紹介する。
論文 参考訳(メタデータ) (2025-12-15T18:28:39Z) - RaCoT: Plug-and-Play Contrastive Example Generation Mechanism for Enhanced LLM Reasoning Reliability [12.67288560758937]
本稿では,RaCoT(Retrieval-aware Contrastive-of-Thought)を提案する。
RaCoTは、解答の発散を決定する重要な詳細に積極的に焦点を合わせるようモデルに誘導する。
論文 参考訳(メタデータ) (2025-10-26T15:06:44Z) - Few-Step Diffusion via Score identity Distillation [67.07985339442703]
拡散蒸留は, テキスト・ツー・イメージ(T2I)拡散モデルを促進するための有望な戦略として浮上している。
既存の方法は、高分解能T2I拡散モデルを蒸留する際に、実像や教師合成画像に頼っている。
教師のCFGを無効にし、偽スコアネットワークでテキストコンディショニングを除去するZero-CFGと、偽スコアネットワークで否定的なCFGを適用するAnti-CFGの2つの新しいガイダンス戦略を提案する。
論文 参考訳(メタデータ) (2025-05-19T03:45:16Z) - DiffAttack: Evasion Attacks Against Diffusion-Based Adversarial
Purification [63.65630243675792]
拡散に基づく浄化防御は拡散モデルを利用して、敵の例の人工摂動を除去する。
近年の研究では、先進的な攻撃でさえ、そのような防御を効果的に破壊できないことが示されている。
拡散型浄化防衛を効果的かつ効率的に行うための統合フレームワークDiffAttackを提案する。
論文 参考訳(メタデータ) (2023-10-27T15:17:50Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。