論文の概要: Dual Quaternion Ambisonics Array for Six-Degree-of-Freedom Acoustic
Representation
- arxiv url: http://arxiv.org/abs/2204.01851v1
- Date: Mon, 4 Apr 2022 21:11:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 15:01:13.566193
- Title: Dual Quaternion Ambisonics Array for Six-Degree-of-Freedom Acoustic
Representation
- Title(参考訳): 6自由度音響表現のための2重四元アンビソニックアレー
- Authors: Eleonora Grassucci, Gioia Mancini, Christian Brignone, Aurelio Uncini,
Danilo Comminiello
- Abstract要約: 2つの第1級アンビニクスマイクロホンのアレイから得られた空間音場の2つの四元数表現を提案する。
信号は2つの四元数にカプセル化され、四元数代数の性質を利用してそれらの相関を利用する。
時間的畳み込みブロックを持つ2つの四元数SELDモデルは、実数および四元数値ベースラインに対してより良い結果が得られることを示す。
- 参考スコア(独自算出の注目度): 12.342292942477684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatial audio methods are gaining a growing interest due to the spread of
immersive audio experiences and applications, such as virtual and augmented
reality. For these purposes, 3D audio signals are often acquired through arrays
of Ambisonics microphones, each comprising four capsules that decompose the
sound field in spherical harmonics. In this paper, we propose a dual quaternion
representation of the spatial sound field acquired through an array of two
First Order Ambisonics (FOA) microphones. The audio signals are encapsulated in
a dual quaternion that leverages quaternion algebra properties to exploit
correlations among them. This augmented representation with 6 degrees of
freedom (6DOF) involves a more accurate coverage of the sound field, resulting
in a more precise sound localization and a more immersive audio experience. We
evaluate our approach on a sound event localization and detection (SELD)
benchmark. We show that our dual quaternion SELD model with temporal
convolution blocks (DualQSELD-TCN) achieves better results with respect to real
and quaternion-valued baselines thanks to our augmented representation of the
sound field. Full code is available at:
https://github.com/ispamm/DualQSELD-TCN.
- Abstract(参考訳): 没入型オーディオ体験の普及や仮想現実や拡張現実などの応用により,空間オーディオ手法への関心が高まっている。
これらの目的のために、3dオーディオ信号はしばしば、球面高調波で音場を分解する4つのカプセルからなるアンビソニックマイクロホンの配列を介して取得される。
本稿では,2つの第1次アビソニックス(foa)マイクロホンの配列によって得られた空間音場の双四元表現を提案する。
音声信号は、四元数代数特性を利用して相関を利用する二重四元数にカプセル化される。
6自由度(6dof)のこの拡張された表現は、音場をより正確にカバーし、より正確な音像定位とより没入的なオーディオ体験をもたらす。
提案手法はseld(sound event localization and detection)ベンチマークを用いて評価する。
時間的畳み込みブロック(DualQSELD-TCN)を用いた2重四元数SELDモデルでは,音場表現の強化により,実および四元数値のベースラインに対してより良い結果が得られることを示す。
完全なコードは、https://github.com/ispamm/DualQSELD-TCN.comで入手できる。
関連論文リスト
- BAT: Learning to Reason about Spatial Sounds with Large Language Models [48.48501269805149]
本稿では,空間的シーン解析モデルの音知覚能力と大規模言語モデル(LLM)の自然言語推論能力を組み合わせたBATを提案する。
実験では,空間音知覚と推論の両方において,BATの優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-02T17:34:53Z) - LAVSS: Location-Guided Audio-Visual Spatial Audio Separation [52.44052357829296]
位置誘導型空間空間オーディオセパレータを提案する。
提案するLAVSSは,空間的オーディオと視覚的位置の相関に着想を得たものである。
さらに,事前学習したモノラル分離器を用いて,豊かなモノラル音からの知識を伝達し,空間的音声分離を促進する。
論文 参考訳(メタデータ) (2023-10-31T13:30:24Z) - Dense 2D-3D Indoor Prediction with Sound via Aligned Cross-Modal
Distillation [44.940531391847]
クロスモーダルな知識蒸留による2次元・3次元音による屋内密集予測の課題に対処する。
我々は2次元と3次元の両方における全方位環境の密集した屋内予測に、オーディオ観測で最初に取り組みました。
音声に基づく深度推定,セマンティックセグメンテーション,難解な3次元シーン再構築のために,提案した蒸留フレームワークは一貫して最先端の性能を達成している。
論文 参考訳(メタデータ) (2023-09-20T06:07:04Z) - Opening the Black Box of wav2vec Feature Encoder [2.1219431687928525]
我々は、その潜在空間が離散音響単位を表すと推測される畳み込み特徴エンコーダに焦点を当てる。
埋め込み空間を還元的に解析するため,単純な正弦波の和である合成音声信号を供給した。
本稿では,(1)基本周波数,(2)ホルマント,(3)振幅といった特徴エンコーダ表現の中に,(4)時間的詳細を詰め込んだ様々な情報が埋め込まれていることを結論する。
論文 参考訳(メタデータ) (2022-10-27T12:47:35Z) - SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic Learning [127.1119359047849]
SoundSpaces 2.0は3D環境のためのオンザフライ幾何ベースのオーディオレンダリングのためのプラットフォームである。
任意のマイク位置から取得した任意の音に対して、非常にリアルな音響を生成する。
SoundSpaces 2.0は、視聴と聴取の両方が可能な知覚システムのより広範な研究を促進するために公開されている。
論文 参考訳(メタデータ) (2022-06-16T17:17:44Z) - BinauralGrad: A Two-Stage Conditional Diffusion Probabilistic Model for
Binaural Audio Synthesis [129.86743102915986]
我々は、音声を共通部分へ分解することで、異なる視点から合成プロセスを定式化する。
拡散モデルを備えた新しい2段階フレームワークであるBinauralGradを提案する。
実験結果から,BinauralGradは対象評価指標と対象評価指標の両方において,既存のベースラインよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-05-30T02:09:26Z) - Visually Informed Binaural Audio Generation without Binaural Audios [130.80178993441413]
記録のない効果的なパイプラインであるPseudoBinauralを提案します。
本研究では球面高調波分解と頭部関連インパルス応答(hrir)を用いて空間位置と受信音声の関係を同定する。
当社の記録のないパイプラインは、データセット間の評価において大きな安定性を示し、主観的な好みで匹敵するパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-13T13:07:33Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。