論文の概要: One-Shot Acoustic Matching Of Audio Signals -- Learning to Hear Music In
Any Room/ Concert Hall
- arxiv url: http://arxiv.org/abs/2210.15750v1
- Date: Thu, 27 Oct 2022 19:54:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 17:45:27.460466
- Title: One-Shot Acoustic Matching Of Audio Signals -- Learning to Hear Music In
Any Room/ Concert Hall
- Title(参考訳): 音響信号のワンショット音響マッチング - 部屋やコンサートホールで音楽を聴くことを学ぶ
- Authors: Prateek Verma, Chris Chafe, Jonathan Berger
- Abstract要約: 興味ある音を他の音響空間に変換できる新しいアーキテクチャを提案する。
我々のフレームワークは、ニューラルネットワークが時間周波数表現における各点の利得を調整することを可能にする。
- 参考スコア(独自算出の注目度): 3.652509571098291
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The acoustic space in which a sound is created and heard plays an essential
role in how that sound is perceived by affording a unique sense of
\textit{presence}. Every sound we hear results from successive convolution
operations intrinsic to the sound source and external factors such as
microphone characteristics and room impulse responses. Typically, researchers
use an excitation such as a pistol shot or balloon pop as an impulse signal
with which an auralization can be created. The room "impulse" responses
convolved with the signal of interest can transform the input sound into the
sound played in the acoustic space of interest. Here we propose a novel
architecture that can transform a sound of interest into any other acoustic
space(room or hall) of interest by using arbitrary audio recorded as a proxy
for a balloon pop. The architecture is grounded in simple signal processing
ideas to learn residual signals from a learned acoustic signature and the input
signal. Our framework allows a neural network to adjust gains of every point in
the time-frequency representation, giving sound qualitative and quantitative
results.
- Abstract(参考訳): 音が生成され、聴く音空間は、その音がどのように知覚されるかにおいて、一意に \textit{presence} という感覚を与えることによって重要な役割を果たす。
音源に固有の逐次畳み込み操作とマイクロホン特性や室内インパルス応答などの外部要因から得られる全ての音について検討する。
通常、研究者たちはピストルショットやバルーンポップのような興奮をインパルス信号として使用し、音化を発生させる。
興味の信号と関連する「インパルス」応答は、入力音を興味の音響空間で再生される音に変換することができる。
本稿では,気球ポップの代理として録音された任意の音声を用いて,興味のある音を他の任意の音響空間(部屋やホール)に変換できる新しいアーキテクチャを提案する。
アーキテクチャは、学習した音響信号と入力信号から残留信号を学ぶための単純な信号処理のアイデアに基づいている。
この枠組みにより,ニューラルネットワークは時間周波数表現の各点の利得を調整でき,音質的,定量的な結果が得られる。
関連論文リスト
- AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Neural Acoustic Context Field: Rendering Realistic Room Impulse Response
With Neural Fields [61.07542274267568]
このレターでは、音声シーンをパラメータ化するためのNACFと呼ばれる新しいニューラルネットワークコンテキストフィールドアプローチを提案する。
RIRのユニークな性質により、時間相関モジュールとマルチスケールエネルギー崩壊基準を設計する。
実験の結果,NACFは既存のフィールドベース手法よりも顕著なマージンで優れていた。
論文 参考訳(メタデータ) (2023-09-27T19:50:50Z) - Sound Design Strategies for Latent Audio Space Explorations Using Deep
Learning Architectures [1.6114012813668934]
変分オートエンコーダ(VAE)と呼ばれるよく知られたディープラーニングアーキテクチャを探索する。
VAEは、記号音楽を除いて、潜時音色空間や潜時音色空間を生成するために使われてきた。
本研究では,VAEを生音声データに直接適用し,音声特徴抽出をバイパスする。
論文 参考訳(メタデータ) (2023-05-24T21:08:42Z) - Listen2Scene: Interactive material-aware binaural sound propagation for
reconstructed 3D scenes [69.03289331433874]
仮想現実(VR)および拡張現実(AR)アプリケーションのためのエンドツーエンドオーディオレンダリング手法(Listen2Scene)を提案する。
実環境の3次元モデルに対する音響効果を生成するために,ニューラルネットを用いた新しい音響伝搬法を提案する。
論文 参考訳(メタデータ) (2023-02-02T04:09:23Z) - Enhancing Audio Perception of Music By AI Picked Room Acoustics [4.314956204483073]
私たちは、AIを使って特定の作品を実行するのに最適な部屋を見つけようとしています。
室内音響は,音の知覚的特性を高める手段として用いられる。
論文 参考訳(メタデータ) (2022-08-16T23:47:43Z) - Learning Neural Acoustic Fields [110.22937202449025]
音が物理的場面でどのように伝搬するかを暗黙的に表現するニューラル・アコースティック・フィールズ(NAF)を導入する。
シーン内の音響伝搬を線形時間不変系としてモデル化することにより、NAFは全てのエミッタとリスナーの位置ペアを連続的にマッピングすることを学ぶ。
NAFの連続的な性質により、任意の場所でリスナーの空間音響を描画することができ、新しい場所での音の伝搬を予測できることを実証する。
論文 参考訳(メタデータ) (2022-04-04T17:59:37Z) - Visual Acoustic Matching [92.91522122739845]
本稿では,音声クリップがターゲット環境に録音されたような音に変換される視覚的音響マッチングタスクを提案する。
対象の環境の画像とソースオーディオの波形が与えられた場合、その視覚的幾何学や材料によって示唆されるように、ターゲットの部屋の音響と一致するように、オーディオを再合成することが目的である。
論文 参考訳(メタデータ) (2022-02-14T17:05:22Z) - Image2Reverb: Cross-Modal Reverb Impulse Response Synthesis [0.3587367153279349]
音響環境の単一画像から可聴音インパルス応答を生成するために、エンドツーエンドのニューラルネットワークアーキテクチャを使用します。
多様な設定やフォーマットからもっともらしいインパルス応答を生成することで、我々のアプローチを実証する。
論文 参考訳(メタデータ) (2021-03-26T01:25:58Z) - Joint Blind Room Acoustic Characterization From Speech And Music Signals
Using Convolutional Recurrent Neural Networks [13.12834490248018]
残響時間、明瞭度、直接残響比は、残響環境を記述するために定義された音響パラメータである。
最近の音声と機械学習を組み合わせると、これらのパラメータは音声や音楽信号を使って盲目的に推定できる。
音声および/または音楽信号を用いた視覚的関節音響パラメータ推定のための頑健なエンドツーエンド手法を提案する。
論文 参考訳(メタデータ) (2020-10-21T17:41:21Z) - Vector-Quantized Timbre Representation [53.828476137089325]
本稿では, スペクトル特性の近似分解を生成的特徴の集合で学習することにより, 個々の音色をより柔軟に合成することを目的とする。
音量分布の量子化表現を学習するために、大音量から切り離された離散潜在空間を持つオートエンコーダを導入する。
オーケストラ楽器と歌唱音声間の音声の翻訳結果と、ボーカルの模倣音から楽器への変換結果について詳述する。
論文 参考訳(メタデータ) (2020-07-13T12:35:45Z) - Unsupervised Learning of Audio Perception for Robotics Applications:
Learning to Project Data to T-SNE/UMAP space [2.8935588665357077]
本論文は,接地構造データにアクセスすることなく,触覚の知覚を構築するための重要なアイデアを基礎にしている。
我々は、古典的な信号処理のアイデアを活用して、高い精度で興味のある音の大量のデータを得る方法を示す。
論文 参考訳(メタデータ) (2020-02-10T20:33:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。