論文の概要: MoXaRt: Audio-Visual Object-Guided Sound Interaction for XR
- arxiv url: http://arxiv.org/abs/2603.10465v1
- Date: Wed, 11 Mar 2026 06:35:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.809272
- Title: MoXaRt: Audio-Visual Object-Guided Sound Interaction for XR
- Title(参考訳): MoXaRt:XRのためのオーディオ・ビジュアルオブジェクト誘導サウンドインタラクション
- Authors: Tianyu Xu, Sieun Kim, Qianhui Zheng, Ruoyu Xu, Tejasvi Ravi, Anuva Kulkarni, Katrina Passarella-Ward, Junyi Zhu, Adarsh Kowdle,
- Abstract要約: MoXaRtは、音声と視覚のキューを使って音源を分離し、きめ細かい音の相互作用を可能にするリアルタイムXRシステムである。
本システムでは音声の聴取能力を大幅に向上させ,36.2%の聴取能力向上を実現した。
- 参考スコア(独自算出の注目度): 12.635946624068183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Extended Reality (XR), complex acoustic environments often overwhelm users, compromising both scene awareness and social engagement due to entangled sound sources. We introduce MoXaRt, a real-time XR system that uses audio-visual cues to separate these sources and enable fine-grained sound interaction. MoXaRt's core is a cascaded architecture that performs coarse, audio-only separation in parallel with visual detection of sources (e.g., faces, instruments). These visual anchors then guide refinement networks to isolate individual sources, separating complex mixes of up to 5 concurrent sources (e.g., 2 voices + 3 instruments) with ~2 second processing latency. We validate MoXaRt through a technical evaluation on a new dataset of 30 one-minute recordings featuring concurrent speech and music, and a 22-participant user study. Empirical results indicate that our system significantly enhances speech intelligibility, yielding a 36.2% (p < 0.01) increase in listening comprehension within adversarial acoustic environments while substantially reducing cognitive load (p < 0.001), thereby paving the way for more perceptive and socially adept XR experiences.
- Abstract(参考訳): 拡張現実感(XR)では、複雑な音響環境がユーザを圧倒し、絡み合った音源によるシーン認識とソーシャルエンゲージメントの両方を妥協させる。
我々は,これらの音源を分離し,きめ細かな音の相互作用を可能にするリアルタイムXRシステムであるMoXaRtを紹介する。
MoXaRtのコアは、粗いオーディオのみの分離と、ソース(例えば顔、楽器)の視覚的検出を並行して行うカスケードアーキテクチャである。
これらの視覚アンカーは、精製ネットワークを誘導して個々のソースを分離し、最大5つのコンカレントソース(例えば、2声+3楽器)と2秒の処理遅延を分離する。
我々はMoXaRtを、同時音声と音楽を含む30分間の1分間の録音データと、22人の参加者によるユーザスタディに基づいて、技術的評価により検証する。
実験結果から, 音声の聴取能力は36.2%(p < 0.01)増加し, 認知負荷(p < 0.001)を大幅に低減し, より知覚的かつ社会的に適応したXR体験の道を開いた。
関連論文リスト
- Enhancing XR Auditory Realism via Multimodal Scene-Aware Acoustic Rendering [5.528622598353137]
物理的環境に動的に適応して空間的に正確な音を描画する新しいオンデバイスシステムであるSAMOSAを紹介する。
SAMOSAは、室内形状、表面材料、意味駆動音響コンテキストのリアルタイム推定を融合することにより、相乗的マルチモーダルシーン表現を利用する。
このリッチな表現により、シーン先行による効率的な音響キャリブレーションが可能になり、システムは非常にリアルなRoom Impulse Response(RIR)を合成できる。
論文 参考訳(メタデータ) (2025-11-14T23:13:02Z) - Cocktail-Party Audio-Visual Speech Recognition [58.222892601847924]
本研究では,現在のAVSRシステムのベンチマークを行うために設計された,新しい音声-視覚カクテルパーティデータセットを提案する。
音声とサイレント顔の両方からなる1526時間AVSRデータセットをコントリビュートし,カクテルパーティー環境における顕著な性能向上を実現した。
我々の手法は、WERを最先端と比較して67%削減し、WERを明示的なセグメンテーション手法に頼ることなく、極音の119%から39.2%に削減する。
論文 参考訳(メタデータ) (2025-06-02T19:07:51Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - AV-RIR: Audio-Visual Room Impulse Response Estimation [49.469389715876915]
室内インパルス応答(RIR)の正確な推定は,音声処理やAR/VR応用において重要である。
本稿では,与えられた残響音声信号と対応する環境の視覚的手がかりからRIRを正確に推定する,新しいマルチモーダルマルチタスク学習手法であるAV-RIRを提案する。
論文 参考訳(メタデータ) (2023-11-30T22:58:30Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation
and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。
オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文 参考訳(メタデータ) (2023-07-06T10:50:46Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。