Fugu-MT 論文翻訳(概要): Dual Quaternion Ambisonics Array for Six-Degree-of-Freedom Acoustic Representation

論文の概要: Dual Quaternion Ambisonics Array for Six-Degree-of-Freedom Acoustic Representation

arxiv url: http://arxiv.org/abs/2204.01851v1
Date: Mon, 4 Apr 2022 21:11:00 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-06 15:01:13.566193
Title: Dual Quaternion Ambisonics Array for Six-Degree-of-Freedom Acoustic Representation
Title（参考訳）: 6自由度音響表現のための2重四元アンビソニックアレー
Authors: Eleonora Grassucci, Gioia Mancini, Christian Brignone, Aurelio Uncini, Danilo Comminiello
Abstract要約: 2つの第1級アンビニクスマイクロホンのアレイから得られた空間音場の2つの四元数表現を提案する。信号は2つの四元数にカプセル化され、四元数代数の性質を利用してそれらの相関を利用する。時間的畳み込みブロックを持つ2つの四元数SELDモデルは、実数および四元数値ベースラインに対してより良い結果が得られることを示す。
参考スコア（独自算出の注目度）: 12.342292942477684
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Spatial audio methods are gaining a growing interest due to the spread of immersive audio experiences and applications, such as virtual and augmented reality. For these purposes, 3D audio signals are often acquired through arrays of Ambisonics microphones, each comprising four capsules that decompose the sound field in spherical harmonics. In this paper, we propose a dual quaternion representation of the spatial sound field acquired through an array of two First Order Ambisonics (FOA) microphones. The audio signals are encapsulated in a dual quaternion that leverages quaternion algebra properties to exploit correlations among them. This augmented representation with 6 degrees of freedom (6DOF) involves a more accurate coverage of the sound field, resulting in a more precise sound localization and a more immersive audio experience. We evaluate our approach on a sound event localization and detection (SELD) benchmark. We show that our dual quaternion SELD model with temporal convolution blocks (DualQSELD-TCN) achieves better results with respect to real and quaternion-valued baselines thanks to our augmented representation of the sound field. Full code is available at: https://github.com/ispamm/DualQSELD-TCN.
Abstract（参考訳）: 没入型オーディオ体験の普及や仮想現実や拡張現実などの応用により,空間オーディオ手法への関心が高まっている。これらの目的のために、3dオーディオ信号はしばしば、球面高調波で音場を分解する4つのカプセルからなるアンビソニックマイクロホンの配列を介して取得される。本稿では,2つの第1次アビソニックス(foa)マイクロホンの配列によって得られた空間音場の双四元表現を提案する。音声信号は、四元数代数特性を利用して相関を利用する二重四元数にカプセル化される。 6自由度(6dof)のこの拡張された表現は、音場をより正確にカバーし、より正確な音像定位とより没入的なオーディオ体験をもたらす。提案手法はseld(sound event localization and detection)ベンチマークを用いて評価する。時間的畳み込みブロック(DualQSELD-TCN)を用いた2重四元数SELDモデルでは,音場表現の強化により,実および四元数値のベースラインに対してより良い結果が得られることを示す。完全なコードは、https://github.com/ispamm/DualQSELD-TCN.comで入手できる。

関連論文リスト

SpA2V: Harnessing Spatial Auditory Cues for Audio-driven Spatially-aware Video Generation [50.03810359300705]
SpA2Vは、生成プロセスをオーディオ誘導ビデオ計画とレイアウト接地ビデオ生成の2つの段階に分解する。入力音声に意味的・空間的アライメントを持たせた実写映像の制作において,SpA2Vが優れていることを示す。
論文参考訳（メタデータ） (2025-08-01T17:05:04Z)
SonicMotion: Dynamic Spatial Audio Soundscapes with Latent Diffusion Models [5.8839502513117194]
我々は、動的音源による3Dシーンの生成を可能にするため、生成型AIモデルの最近の進歩を拡大したいと考えている。提案するエンドツーエンドモデルであるSonicMotionには,ユーザ入力と音源定位精度の2つのバリエーションがある。
論文参考訳（メタデータ） (2025-07-09T22:31:06Z)
Audio-Plane: Audio Factorization Plane Gaussian Splatting for Real-Time Talking Head Synthesis [56.749927786910554]
本稿では,ガウススティングと構造化オーディオファクトリゼーションプレーン(Audio-Plane)を統合し,高品質,音声同期,リアルタイム音声ヘッド生成を実現する新しいフレームワークを提案する。提案手法は,最先端の視覚的品質,正確なオーディオ-リップ同期,リアルタイム性能を実現し,従来の2次元および3次元のパラダイムよりも優れていた。
論文参考訳（メタデータ） (2025-03-28T16:50:27Z)
DualSpec: Text-to-spatial-audio Generation via Dual-Spectrogram Guided Diffusion Model [48.57556892287629]
本稿では,DualSpec というテキスト・音声生成フレームワークを提案する。まず、音響イベントオーディオから潜時音響表現を抽出するための変分オートエンコーダ(VAE)を訓練する。最後に、空間音響生成のための潜在音響表現とテキスト特徴から拡散モデルを訓練する。
論文参考訳（メタデータ） (2025-02-26T09:01:59Z)
ImmerseDiffusion: A Generative Spatial Audio Latent Diffusion Model [2.2927722373373247]
ImmerseDiffusionは音の空間的・時間的・環境的条件を条件とした3次元没入型音像を生成する。
論文参考訳（メタデータ） (2024-10-19T02:28:53Z)
Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation [32.24603883810094]
ステレオオーディオを空間的コンテキストで制御することは、高いデータコストと不安定な生成モデルのために依然として困難である。まず, 大規模・シミュレーションベース・GPT支援型データセットBEWO-1Mを構築し, 移動・複数音源を含む豊富な音環境と記述を行った。空間誘導を利用して,テキストや画像から没入型かつ制御可能な空間オーディオを生成する。
論文参考訳（メタデータ） (2024-10-14T16:18:29Z)
Array2BR: An End-to-End Noise-immune Binaural Audio Synthesis from Microphone-array Signals [31.30005077444649]
本稿では、マイクロホンアレイ信号から、Array2BRと略される新しいエンドツーエンドノイズ免疫合成フレームワークを提案する。従来の手法と比較して,提案手法は客観的評価と主観的評価の両点において優れた性能を示した。
論文参考訳（メタデータ） (2024-10-08T06:55:35Z)
AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。 AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文参考訳（メタデータ） (2024-06-13T08:34:12Z)
Sim2Real Transfer for Audio-Visual Navigation with Frequency-Adaptive Acoustic Field Prediction [51.71299452862839]
本稿では,音場予測 (AFP) とウェイポイントナビゲーションに切り離して, 音声視覚ナビゲーションのためのsim2real の最初の治療法を提案する。次に、特定の周波数サブバンドのみを入力とするAFPモデルをトレーニングすることにより、実世界のデータを収集し、シミュレーションと実世界のスペクトル差を測定する。最後に、実際のロボットプラットフォームを構築し、転送されたポリシーが、音を鳴らすオブジェクトにうまくナビゲートできることを示します。
論文参考訳（メタデータ） (2024-05-05T06:01:31Z)
BAT: Learning to Reason about Spatial Sounds with Large Language Models [45.757161909533714]
本稿では,空間的シーン解析モデルの音知覚能力と大規模言語モデル(LLM)の自然言語推論能力を組み合わせたBATを提案する。実験では,空間音知覚と推論の両方において,BATの優れた性能を示す。
論文参考訳（メタデータ） (2024-02-02T17:34:53Z)
LAVSS: Location-Guided Audio-Visual Spatial Audio Separation [52.44052357829296]
位置誘導型空間空間オーディオセパレータを提案する。提案するLAVSSは,空間的オーディオと視覚的位置の相関に着想を得たものである。さらに,事前学習したモノラル分離器を用いて,豊かなモノラル音からの知識を伝達し,空間的音声分離を促進する。
論文参考訳（メタデータ） (2023-10-31T13:30:24Z)
SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic Learning [127.1119359047849]
SoundSpaces 2.0は3D環境のためのオンザフライ幾何ベースのオーディオレンダリングのためのプラットフォームである。任意のマイク位置から取得した任意の音に対して、非常にリアルな音響を生成する。 SoundSpaces 2.0は、視聴と聴取の両方が可能な知覚システムのより広範な研究を促進するために公開されている。
論文参考訳（メタデータ） (2022-06-16T17:17:44Z)
BinauralGrad: A Two-Stage Conditional Diffusion Probabilistic Model for Binaural Audio Synthesis [129.86743102915986]
我々は、音声を共通部分へ分解することで、異なる視点から合成プロセスを定式化する。拡散モデルを備えた新しい2段階フレームワークであるBinauralGradを提案する。実験結果から,BinauralGradは対象評価指標と対象評価指標の両方において,既存のベースラインよりも高い性能を示した。
論文参考訳（メタデータ） (2022-05-30T02:09:26Z)
Visually Informed Binaural Audio Generation without Binaural Audios [130.80178993441413]
記録のない効果的なパイプラインであるPseudoBinauralを提案します。本研究では球面高調波分解と頭部関連インパルス応答(hrir)を用いて空間位置と受信音声の関係を同定する。当社の記録のないパイプラインは、データセット間の評価において大きな安定性を示し、主観的な好みで匹敵するパフォーマンスを実現します。
論文参考訳（メタデータ） (2021-04-13T13:07:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。