論文の概要: Gen-A: Generalizing Ambisonics Neural Encoding to Unseen Microphone Arrays
- arxiv url: http://arxiv.org/abs/2501.08047v1
- Date: Tue, 14 Jan 2025 11:54:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:28:05.709610
- Title: Gen-A: Generalizing Ambisonics Neural Encoding to Unseen Microphone Arrays
- Title(参考訳): Gen-A: アンビニクスのニューラルエンコーディングを未確認のマイクロフォンアレイに一般化する
- Authors: Mikko Heikkinen, Archontis Politis, Konstantinos Drossos, Tuomas Virtanen,
- Abstract要約: 本稿では,訓練中に見つからない任意のMAジオメトリに一般化可能な,DNNによるアンビニクス符号化手法を提案する。
本手法は, 1 および 2 つの音源を用いた模擬無響および残響条件で検証した。
- 参考スコア(独自算出の注目度): 11.484574705341691
- License:
- Abstract: Using deep neural networks (DNNs) for encoding of microphone array (MA) signals to the Ambisonics spatial audio format can surpass certain limitations of established conventional methods, but existing DNN-based methods need to be trained separately for each MA. This paper proposes a DNN-based method for Ambisonics encoding that can generalize to arbitrary MA geometries unseen during training. The method takes as inputs the MA geometry and MA signals and uses a multi-level encoder consisting of separate paths for geometry and signal data, where geometry features inform the signal encoder at each level. The method is validated in simulated anechoic and reverberant conditions with one and two sources. The results indicate improvement over conventional encoding across the whole frequency range for dry scenes, while for reverberant scenes the improvement is frequency-dependent.
- Abstract(参考訳): マイクロホンアレイ(MA)信号をAmbisonics空間オーディオフォーマットに符号化するためにディープニューラルネットワーク(DNN)を使用することは、確立された従来の手法の一定の制限を克服することができるが、既存のDNNベースの手法は各MAに対して個別に訓練する必要がある。
本稿では,訓練中に見つからない任意のMAジオメトリに一般化可能な,DNNによるアンビニクス符号化手法を提案する。
この方法は、MA幾何とMA信号を入力として取り、幾何と信号データのための別々の経路からなるマルチレベルエンコーダを使用し、幾何の特徴が各レベルで信号エンコーダに通知する。
本手法は, 1 および 2 つの音源を用いた模擬無響および残響条件で検証した。
以上の結果から,従来のドライシーンにおける全周波数範囲での符号化よりも,残響シーンでは周波数依存性が向上した。
関連論文リスト
- Locality-Aware Generalizable Implicit Neural Representation [54.93702310461174]
一般化可能な暗黙的ニューラル表現(INR)は、単一の連続関数が複数のデータインスタンスを表現することを可能にする。
本稿では、変換器エンコーダと局所性を考慮したINRデコーダを組み合わせた一般化可能なINRのための新しいフレームワークを提案する。
我々のフレームワークは、従来の一般化可能なINRよりも大幅に優れており、下流タスクにおける局所性を考慮した潜在能力の有効性を検証している。
論文 参考訳(メタデータ) (2023-10-09T11:26:58Z) - Dual input neural networks for positional sound source localization [19.07039703121673]
本稿では、これらの2つのデータ型をニューラルネットワークでモデル化するための、単純かつ効果的な方法として、Dual Input Neural Networks(DI-NN)を紹介する。
難易度と現実性の異なるシナリオに基づいて提案したDI-NNをトレーニングし、評価し、代替アーキテクチャと比較する。
以上の結果から,DI-NNはLS法よりも5倍,CRNNより2倍低い位置推定誤差を達成できることがわかった。
論文 参考訳(メタデータ) (2023-08-08T09:59:56Z) - Denoising Diffusion Error Correction Codes [92.10654749898927]
近年、ニューラルデコーダは古典的デコーダ技術に対する優位性を実証している。
最近の最先端のニューラルデコーダは複雑で、多くのレガシデコーダの重要な反復的スキームが欠如している。
本稿では,任意のブロック長の線形符号のソフトデコードにデノナイズ拡散モデルを適用することを提案する。
論文 参考訳(メタデータ) (2022-09-16T11:00:50Z) - Decision Forest Based EMG Signal Classification with Low Volume Dataset
Augmented with Random Variance Gaussian Noise [51.76329821186873]
我々は6種類の手振りを限定的なサンプル数で分類できるモデルを作成し、より広い聴衆によく一般化する。
信号のランダムなバウンドの使用など、より基本的な手法のセットにアピールするが、これらの手法がオンライン環境で持てる力を示したいと考えている。
論文 参考訳(メタデータ) (2022-06-29T23:22:18Z) - PINs: Progressive Implicit Networks for Multi-Scale Neural
Representations [68.73195473089324]
周波数符号化のインクリメンタルな集合に階層構造を露出するプログレッシブな位置符号化を提案する。
本モデルでは,広帯域のシーンを正確に再構成し,プログレッシブなディテールでシーン表現を学習する。
いくつかの2次元および3次元データセットの実験では、ベースラインと比較して、再構築精度、表現能力、トレーニング速度が改善されている。
論文 参考訳(メタデータ) (2022-02-09T20:33:37Z) - An Adaptive Sampling and Edge Detection Approach for Encoding Static
Images for Spiking Neural Networks [0.2519906683279152]
スパイキングニューラルネットワーク(SNN)は、人工ニューラルネットワークの第3世代と考えられている。
本稿では,エッジ検出と適応信号サンプリング手法を用いて,静的画像を時間的スパイク列車に符号化する方法を提案する。
論文 参考訳(メタデータ) (2021-10-19T19:31:52Z) - Multi-Channel End-to-End Neural Diarization with Distributed Microphones [53.99406868339701]
EENDのTransformerエンコーダを,マルチチャネル入力を処理する2種類のエンコーダに置き換える。
また,単一チャンネル記録のみを用いたモデル適応手法を提案する。
論文 参考訳(メタデータ) (2021-10-10T03:24:03Z) - Learning to Time-Decode in Spiking Neural Networks Through the
Information Bottleneck [37.376989855065545]
スパイキングニューラルネットワーク(SNN)をトレーニングする上で重要な課題の1つは、ターゲット出力が通常、自然な信号の形で現れることである。
これは、ターゲットのスパイク信号を手作りして、スパイクを自然な信号にデコードするメカニズムを暗黙的に修正する。
本研究では、符号化SNNと復号ニューラルネットワークからなるハイブリッド変分オートエンコーダアーキテクチャを導入する。
論文 参考訳(メタデータ) (2021-06-02T14:14:47Z) - Multi-speaker Emotion Conversion via Latent Variable Regularization and
a Chained Encoder-Decoder-Predictor Network [18.275646344620387]
本稿では,連鎖型エンコーダ・デコーダ・予測ニューラルネットワークアーキテクチャに基づく音声の感情変換手法を提案する。
提案手法は,感情変換の正しさと合成音声の質の両方において,既存の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-07-25T13:59:22Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。