論文の概要: Field of View Enhanced Signal Dependent Binauralization with Mixture of Experts Framework for Continuous Source Motion
- arxiv url: http://arxiv.org/abs/2509.13548v1
- Date: Tue, 16 Sep 2025 21:30:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.657601
- Title: Field of View Enhanced Signal Dependent Binauralization with Mixture of Experts Framework for Continuous Source Motion
- Title(参考訳): 連続音源運動のためのエキスパートフレームワークの混合による信号依存バイノーラル化の視野化
- Authors: Manan Mittal, Thomas Deppisch, Joseph Forrer, Chris Le Sueur, Zamir Ben-Hur, David Lou Along, Daniel D. E. Wong,
- Abstract要約: 信号マッチングにおけるフィールド・オブ・ビュー・エンハンスメントのための新しい専門家フレームワークを提案する。
提案手法は, 連続した話者の動きに適応し, ユーザが選択した方向からの音声を強調・抑制できる動的空間音響レンダリングを実現する。
これにより、移動音源のリアルタイム追跡と強化が可能になり、音声フォーカス、ノイズ低減、拡張現実および仮想現実におけるワールドロックされたオーディオなどのアプリケーションをサポートする。
- 参考スコア(独自算出の注目度): 2.614081506519191
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel mixture of experts framework for field-of-view enhancement in binaural signal matching. Our approach enables dynamic spatial audio rendering that adapts to continuous talker motion, allowing users to emphasize or suppress sounds from selected directions while preserving natural binaural cues. Unlike traditional methods that rely on explicit direction-of-arrival estimation or operate in the Ambisonics domain, our signal-dependent framework combines multiple binaural filters in an online manner using implicit localization. This allows for real-time tracking and enhancement of moving sound sources, supporting applications such as speech focus, noise reduction, and world-locked audio in augmented and virtual reality. The method is agnostic to array geometry offering a flexible solution for spatial audio capture and personalized playback in next-generation consumer audio devices.
- Abstract(参考訳): バイノーラル信号マッチングにおけるフィールド・オブ・ビュー・エンハンスメントのための新しい専門家フレームワークを提案する。
提案手法は, 自然なバイノーラルな手がかりを保ちながら, ユーザが選択した方向からの音声を強調・抑制する, 連続話者の動きに適応する動的空間オーディオレンダリングを実現する。
明示的な位置推定やアンビニクス領域での動作に依存する従来の手法とは異なり、我々の信号依存フレームワークは暗黙の局所化を用いて複数のバイノーラルフィルタをオンライン的に組み合わせている。
これにより、移動音源のリアルタイム追跡と強化が可能になり、音声フォーカス、ノイズ低減、拡張現実および仮想現実におけるワールドロックされたオーディオなどのアプリケーションをサポートする。
この方法は、次世代の消費者オーディオデバイスにおいて、空間的オーディオキャプチャとパーソナライズされた再生のためのフレキシブルなソリューションを提供する配列幾何学に非依存である。
関連論文リスト
- In-the-wild Audio Spatialization with Flexible Text-guided Localization [37.60344400859993]
没入感を高めるために、オーディオはAR、VR、組み込みAIアプリケーションにおける音の物体を空間的に認識する。
既存のオーディオ空間化法は一般に任意のモノラルオーディオを音声信号にマッピングできるが、複雑なマルチオブジェクトのユーザ対話環境において必要とされる柔軟性と対話性に欠けることが多い。
フレキシブルテキストプロンプトを利用したテキスト誘導型音声空間化(TAS)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-01T09:41:56Z) - SOAF: Scene Occlusion-aware Neural Acoustic Field [9.651041527067907]
そこで我々は,Scene Occlusion-aware Acoustic Field (SOAF) と呼ばれる新しい手法を提案する。
提案手法は,距離対応パラメトリック音波伝搬モデルを用いて,音場に対する大域的先行を導出する。
そこで我々は、Fibonacci Sphereを用いて、受信機を中心とする局所音場から特徴を抽出し、新しいビューのための音声を生成する。
論文 参考訳(メタデータ) (2024-07-02T13:40:56Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation [29.87407471246318]
この研究は、顔の動きを同期させ、視覚的に魅力的で時間的に一貫したアニメーションを作成する複雑さを掘り下げている。
我々の革新的なアプローチは、エンドツーエンドの拡散パラダイムを採用し、階層的な音声駆動視覚合成モジュールを導入しています。
提案した階層型音声駆動視覚合成は、表現の適応的な制御と多様性のポーズを提供し、異なるアイデンティティに合わせてより効果的なパーソナライゼーションを可能にする。
論文 参考訳(メタデータ) (2024-06-13T04:33:20Z) - Geometry-Aware Multi-Task Learning for Binaural Audio Generation from
Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。
既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文 参考訳(メタデータ) (2021-11-21T19:26:45Z) - Visually Informed Binaural Audio Generation without Binaural Audios [130.80178993441413]
記録のない効果的なパイプラインであるPseudoBinauralを提案します。
本研究では球面高調波分解と頭部関連インパルス応答(hrir)を用いて空間位置と受信音声の関係を同定する。
当社の記録のないパイプラインは、データセット間の評価において大きな安定性を示し、主観的な好みで匹敵するパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-13T13:07:33Z) - Unsupervised Sound Localization via Iterative Contrastive Learning [106.56167882750792]
データアノテーションを必要としない反復型コントラスト学習フレームワークを提案する。
次に、擬似ラベルを用いて、同じビデオからサンプリングされた視覚信号と音声信号の相関関係を学習する。
我々の反復的戦略は徐々に音像の局所化を奨励し、非発声領域と参照音声との相関を減少させる。
論文 参考訳(メタデータ) (2021-04-01T07:48:29Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。