論文の概要: Dual Quaternion Ambisonics Array for Six-Degree-of-Freedom Acoustic
Representation
- arxiv url: http://arxiv.org/abs/2204.01851v1
- Date: Mon, 4 Apr 2022 21:11:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 15:01:13.566193
- Title: Dual Quaternion Ambisonics Array for Six-Degree-of-Freedom Acoustic
Representation
- Title(参考訳): 6自由度音響表現のための2重四元アンビソニックアレー
- Authors: Eleonora Grassucci, Gioia Mancini, Christian Brignone, Aurelio Uncini,
Danilo Comminiello
- Abstract要約: 2つの第1級アンビニクスマイクロホンのアレイから得られた空間音場の2つの四元数表現を提案する。
信号は2つの四元数にカプセル化され、四元数代数の性質を利用してそれらの相関を利用する。
時間的畳み込みブロックを持つ2つの四元数SELDモデルは、実数および四元数値ベースラインに対してより良い結果が得られることを示す。
- 参考スコア(独自算出の注目度): 12.342292942477684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatial audio methods are gaining a growing interest due to the spread of
immersive audio experiences and applications, such as virtual and augmented
reality. For these purposes, 3D audio signals are often acquired through arrays
of Ambisonics microphones, each comprising four capsules that decompose the
sound field in spherical harmonics. In this paper, we propose a dual quaternion
representation of the spatial sound field acquired through an array of two
First Order Ambisonics (FOA) microphones. The audio signals are encapsulated in
a dual quaternion that leverages quaternion algebra properties to exploit
correlations among them. This augmented representation with 6 degrees of
freedom (6DOF) involves a more accurate coverage of the sound field, resulting
in a more precise sound localization and a more immersive audio experience. We
evaluate our approach on a sound event localization and detection (SELD)
benchmark. We show that our dual quaternion SELD model with temporal
convolution blocks (DualQSELD-TCN) achieves better results with respect to real
and quaternion-valued baselines thanks to our augmented representation of the
sound field. Full code is available at:
https://github.com/ispamm/DualQSELD-TCN.
- Abstract(参考訳): 没入型オーディオ体験の普及や仮想現実や拡張現実などの応用により,空間オーディオ手法への関心が高まっている。
これらの目的のために、3dオーディオ信号はしばしば、球面高調波で音場を分解する4つのカプセルからなるアンビソニックマイクロホンの配列を介して取得される。
本稿では,2つの第1次アビソニックス(foa)マイクロホンの配列によって得られた空間音場の双四元表現を提案する。
音声信号は、四元数代数特性を利用して相関を利用する二重四元数にカプセル化される。
6自由度(6dof)のこの拡張された表現は、音場をより正確にカバーし、より正確な音像定位とより没入的なオーディオ体験をもたらす。
提案手法はseld(sound event localization and detection)ベンチマークを用いて評価する。
時間的畳み込みブロック(DualQSELD-TCN)を用いた2重四元数SELDモデルでは,音場表現の強化により,実および四元数値のベースラインに対してより良い結果が得られることを示す。
完全なコードは、https://github.com/ispamm/DualQSELD-TCN.comで入手できる。
関連論文リスト
- ImmerseDiffusion: A Generative Spatial Audio Latent Diffusion Model [2.2927722373373247]
ImmerseDiffusionは音の空間的・時間的・環境的条件を条件とした3次元没入型音像を生成する。
論文 参考訳(メタデータ) (2024-10-19T02:28:53Z) - Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation [32.24603883810094]
ステレオオーディオを空間的コンテキストで制御することは、高いデータコストと不安定な生成モデルのために依然として困難である。
まず, 大規模・シミュレーションベース・GPT支援型データセットBEWO-1Mを構築し, 移動・複数音源を含む豊富な音環境と記述を行った。
空間誘導を利用して,テキストや画像から没入型かつ制御可能な空間オーディオを生成する。
論文 参考訳(メタデータ) (2024-10-14T16:18:29Z) - Array2BR: An End-to-End Noise-immune Binaural Audio Synthesis from Microphone-array Signals [31.30005077444649]
本稿では、マイクロホンアレイ信号から、Array2BRと略される新しいエンドツーエンドノイズ免疫合成フレームワークを提案する。
従来の手法と比較して,提案手法は客観的評価と主観的評価の両点において優れた性能を示した。
論文 参考訳(メタデータ) (2024-10-08T06:55:35Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Sim2Real Transfer for Audio-Visual Navigation with Frequency-Adaptive Acoustic Field Prediction [51.71299452862839]
本稿では,音場予測 (AFP) とウェイポイントナビゲーションに切り離して, 音声視覚ナビゲーションのためのsim2real の最初の治療法を提案する。
次に、特定の周波数サブバンドのみを入力とするAFPモデルをトレーニングすることにより、実世界のデータを収集し、シミュレーションと実世界のスペクトル差を測定する。
最後に、実際のロボットプラットフォームを構築し、転送されたポリシーが、音を鳴らすオブジェクトにうまくナビゲートできることを示します。
論文 参考訳(メタデータ) (2024-05-05T06:01:31Z) - BAT: Learning to Reason about Spatial Sounds with Large Language Models [45.757161909533714]
本稿では,空間的シーン解析モデルの音知覚能力と大規模言語モデル(LLM)の自然言語推論能力を組み合わせたBATを提案する。
実験では,空間音知覚と推論の両方において,BATの優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-02T17:34:53Z) - LAVSS: Location-Guided Audio-Visual Spatial Audio Separation [52.44052357829296]
位置誘導型空間空間オーディオセパレータを提案する。
提案するLAVSSは,空間的オーディオと視覚的位置の相関に着想を得たものである。
さらに,事前学習したモノラル分離器を用いて,豊かなモノラル音からの知識を伝達し,空間的音声分離を促進する。
論文 参考訳(メタデータ) (2023-10-31T13:30:24Z) - SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic Learning [127.1119359047849]
SoundSpaces 2.0は3D環境のためのオンザフライ幾何ベースのオーディオレンダリングのためのプラットフォームである。
任意のマイク位置から取得した任意の音に対して、非常にリアルな音響を生成する。
SoundSpaces 2.0は、視聴と聴取の両方が可能な知覚システムのより広範な研究を促進するために公開されている。
論文 参考訳(メタデータ) (2022-06-16T17:17:44Z) - BinauralGrad: A Two-Stage Conditional Diffusion Probabilistic Model for
Binaural Audio Synthesis [129.86743102915986]
我々は、音声を共通部分へ分解することで、異なる視点から合成プロセスを定式化する。
拡散モデルを備えた新しい2段階フレームワークであるBinauralGradを提案する。
実験結果から,BinauralGradは対象評価指標と対象評価指標の両方において,既存のベースラインよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-05-30T02:09:26Z) - Visually Informed Binaural Audio Generation without Binaural Audios [130.80178993441413]
記録のない効果的なパイプラインであるPseudoBinauralを提案します。
本研究では球面高調波分解と頭部関連インパルス応答(hrir)を用いて空間位置と受信音声の関係を同定する。
当社の記録のないパイプラインは、データセット間の評価において大きな安定性を示し、主観的な好みで匹敵するパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-13T13:07:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。