Fugu-MT 論文翻訳(概要): IsoNet: Spatially-aware audio-visual target speech extraction in complex acoustic environments

論文の概要: IsoNet: Spatially-aware audio-visual target speech extraction in complex acoustic environments

arxiv url: http://arxiv.org/abs/2605.14736v2
Date: Fri, 15 May 2026 13:21:30 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-18 21:22:25.992874
Title: IsoNet: Spatially-aware audio-visual target speech extraction in complex acoustic environments
Title（参考訳）: アイソネット:複雑な音響環境下での空間認識型音声視覚目標音声抽出
Authors: Dinanath Padhya, Sajen Maharjan, Binita Adhikari, Ishwor Raj Pokharel,
Abstract要約: アイソネット (IsoNet) は、コンパクトな4マイクロホンアレイのためのユーザ選択型音声視覚目標音声抽出システムである。 3種類のカリキュラムが25,000種類のVoxCeleb混合物で訓練された。 -1から10dBのSNRにまたがるハードテストセットでは、IsoNet-CL1 9.31dB SI-SDRが4.85dBの改善を達成している。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Target speech extraction remains difficult for compact devices because monaural neural models lack spatial evidence and classical beamformers lose resolving power when the microphone aperture is only a few centimetres. We present IsoNet, a user-selectable audio-visual target speech extraction system for a compact 4-microphone array. IsoNet combines complex multi-channel STFT features, GCC-PHAT spatial cues, face-conditioned visual embeddings, and auxiliary direction-of-arrival supervision inside a U-Net mask estimation network. Three curriculum variants were trained on 25,000 simulated VoxCeleb mixtures with progressively difficult SNR regimes. On a hard test set spanning -1 to 10 dB SNR, IsoNet-CL1 achieves 9.31 dB SI-SDR, a 4.85 dB improvement over the mixture, with PESQ 2.13 and STOI 0.84. Oracle delay-and-sum and MVDR beamformers degrade the same mixtures by 4.82 dB and 6.08 dB SI-SDRi, respectively, showing that the proposed learned multimodal conditioning solves a regime where conventional spatial filtering is ineffective. Ablation studies show consistent gains from visual conditioning, GCC-PHAT features, and extended delay-bin encoding. The results establish a compact-array, face-selectable speech extraction baseline under controlled simulation and identify the remaining barriers to real deployment, especially phase reconstruction, multi-interferer mixtures, and simulation-to-real transfer.
Abstract（参考訳）: 単調なニューラルモデルでは空間的証拠が欠如し、マイクロフォンの開口がわずか数センチメートルのとき、古典的なビームフォーマーは分解力を失うため、コンパクトデバイスではターゲット音声抽出は依然として困難である。小型4マイクロホンアレイのためのユーザ選択型音声視覚目標音声抽出システムであるIsoNetを提案する。 IsoNetは、複雑なマルチチャネルSTFT機能、GCC-PHAT空間的キュー、顔条件付き視覚埋め込み、U-Netマスク推定ネットワーク内の補助方向監視を組み合わせた。 3種類のカリキュラムが25,000種類のVoxCeleb混合物で訓練された。 -1から10dBのSNRにまたがるハードテストセットでは、IsoNet-CL1は9.31dBのSI-SDRを達成する。 Oracleの遅延・サマー・ビームフォーマとMVDRビームフォーマは、それぞれ4.82dBと6.08dBのSI-SDRiの混合を分解し、提案した多モード条件付けによって従来の空間フィルタリングが有効でない状態が解決されることを示す。アブレーション研究は、視覚条件付け、GCC-PHAT特徴、拡張遅延ビン符号化による一貫した利得を示す。その結果、制御されたシミュレーションの下で、コンパクトアレーで顔選択可能な音声抽出ベースラインを確立し、特に位相再構成、マルチインターフェラー混合、シミュレーション・トゥ・リアル・トランスファーの残りの障壁を特定した。

関連論文リスト

Compressive sensing inspired self-supervised single-pixel imaging [48.79613794195208]
SISTA-Netは、単画素イメージングのための圧縮センシングインスパイアされた自己教師方式である。我々は、適応スパース変換と学習可能なソフトスレッショルド演算子を組み合わせることで、潜伏領域に明示的な物理的間隔を課すために、ディープ非線形ネットワークを利用する。複数のシミュレーションシナリオの実験では、SISTA-NetはPSNRの2.6dBで最先端の手法より優れていた。
論文参考訳（メタデータ） (2026-03-31T13:31:43Z)
Spec2VolCAMU-Net: A Spectrogram-to-Volume Model for EEG-to-fMRI Reconstruction based on Multi-directional Time-Frequency Convolutional Attention Encoder and Vision-Mamba U-Net [13.510069069207548]
高分解能核磁気共鳴イメージング(fMRI)はヒト脳活動のマッピングに不可欠である。既存のEEG-to-fMRIジェネレータは、チャネル間の時間周波数キューをキャプチャできないプレーンな畳み込みネットワーク(CNN)に依存している。リッチな特徴抽出のための多方向時間周波数畳み込みアテンションを特徴とする軽量アーキテクチャであるSpec2VolCAMU-Netを提案する。
論文参考訳（メタデータ） (2025-05-14T16:18:21Z)
AI-Powered Inverse Design of Ku-Band SIW Resonant Structures by Iterative Residual Correction Network [0.0]
マルチモードSIWフィルタの逆設計のために,ディープラーニングに基づくフレームワークを開発し,検証した。一連のSIWフィルタが設計され、製造され、実験的に評価された。提案フレームワークは、複雑なマイクロ波フィルタの堅牢で、正確で、一般化可能な逆設計を可能にする能力を示す。
論文参考訳（メタデータ） (2025-05-11T10:51:43Z)
EDmamba: Rethinking Efficient Event Denoising with Spatiotemporal Decoupled SSMs [23.63023704154084]
イベントカメラはマイクロ秒のレイテンシと広いダイナミックレンジを提供するが、生のストリームは空間的なアーティファクトによってマージされる。 EDmambaは、物理的メカニズムの異なる空間的および時間的ノイズが生じるというキーインサイトを取り入れた、コンパクトなイベントデノベーションフレームワークである。この分離された設計は、ネットワークを88.9Kパラメータと2.27GPに蒸留し、1つのトランスフォーマー上で68msで100Kイベントのリアルタイムスループットを実現する。
論文参考訳（メタデータ） (2025-05-08T16:27:27Z)
Squeezeformer: An Efficient Transformer for Automatic Speech Recognition [99.349598600887]
Conformerは、そのハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルである。 Squeezeformerモデルを提案する。これは、同じトレーニングスキームの下で、最先端のASRモデルよりも一貫して優れている。
論文参考訳（メタデータ） (2022-06-02T06:06:29Z)
Combining Spatial Clustering with LSTM Speech Models for Multichannel Speech Enhancement [3.730592618611028]
LSTMアーキテクチャを用いたリカレントニューラルネットワークは、大きな単一チャネルノイズ低減を実現することができる。しかし、新しいマイク構成に一般化できる方法でマルチチャネル入力に適用する方法は明らかではない。本稿では,空間分離性能と多チャンネル空間クラスタリングの汎用性を両立させる2つの手法を組み合わせる。
論文参考訳（メタデータ） (2020-12-02T22:37:50Z)
Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文参考訳（メタデータ） (2020-07-07T08:22:56Z)
Deep Denoising Neural Network Assisted Compressive Channel Estimation for mmWave Intelligent Reflecting Surfaces [99.34306447202546]
本稿では,mmWave IRSシステムに対するディープデノイングニューラルネットワークを用いた圧縮チャネル推定法を提案する。我々はまず、受信チェーンをほとんど使わず、アップリンクのユーザ-IRSチャネルを推定するハイブリッド・パッシブ/アクティブIRSアーキテクチャを導入する。完全チャネル行列は、圧縮センシングに基づいて限られた測定値から再構成することができる。
論文参考訳（メタデータ） (2020-06-03T12:18:57Z)
Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文参考訳（メタデータ） (2020-05-18T10:31:19Z)
Temporal-Spatial Neural Filter: Direction Informed End-to-End Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。主な課題は、複雑な音響環境とリアルタイム処理の要件である。複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文参考訳（メタデータ） (2020-01-02T11:12:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。