論文の概要: Enhancing Audio Perception of Music By AI Picked Room Acoustics
- arxiv url: http://arxiv.org/abs/2208.07994v1
- Date: Tue, 16 Aug 2022 23:47:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-18 12:40:35.288713
- Title: Enhancing Audio Perception of Music By AI Picked Room Acoustics
- Title(参考訳): aiピックルーム音響による音楽の音響知覚の向上
- Authors: Prateek Verma and Jonathan Berger
- Abstract要約: 私たちは、AIを使って特定の作品を実行するのに最適な部屋を見つけようとしています。
室内音響は,音の知覚的特性を高める手段として用いられる。
- 参考スコア(独自算出の注目度): 4.314956204483073
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Every sound that we hear is the result of successive convolutional operations
(e.g. room acoustics, microphone characteristics, resonant properties of the
instrument itself, not to mention characteristics and limitations of the sound
reproduction system). In this work we seek to determine the best room in which
to perform a particular piece using AI. Additionally, we use room acoustics as
a way to enhance the perceptual qualities of a given sound. Historically, rooms
(particularly Churches and concert halls) were designed to host and serve
specific musical functions. In some cases the architectural acoustical
qualities enhanced the music performed there. We try to mimic this, as a first
step, by designating room impulse responses that would correlate to producing
enhanced sound quality for particular music. A convolutional architecture is
first trained to take in an audio sample and mimic the ratings of experts with
about 78 % accuracy for various instrument families and notes for perceptual
qualities. This gives us a scoring function for any audio sample which can rate
the perceptual pleasantness of a note automatically. Now, via a library of
about 60,000 synthetic impulse responses mimicking all kinds of room,
materials, etc, we use a simple convolution operation, to transform the sound
as if it was played in a particular room. The perceptual evaluator is used to
rank the musical sounds, and yield the "best room or the concert hall" to play
a sound. As a byproduct it can also use room acoustics to turn a poor quality
sound into a "good" sound.
- Abstract(参考訳): 私たちが聞くすべての音は、連続した畳み込み操作の結果である(例えば、室内音響、マイク特性、楽器自体の共鳴特性など、音響再生システムの特徴や限界は言うまでもない)。
この研究では、AIを使って特定の作品を実行するのに最適な部屋を見つけようとしています。
また,室内音響を音の知覚性を高める方法として用いる。
歴史的に、部屋(特に教会やコンサートホール)は特定の音楽機能を司るように設計されていた。
場合によっては、建築の音響特性により、そこで演奏される音楽が強化された。
第一歩として、特定の音楽に対する音質の向上と相関する室内インパルス応答を指定することで、これを模倣しようと試みている。
畳み込み型アーキテクチャは、まずオーディオサンプルを取り込んで、さまざまな楽器ファミリーや知覚特性のノートに対して、およそ78パーセントの精度で専門家の評価を模倣するように訓練される。
これにより、音符の知覚的快適度を自動的に評価できるオーディオサンプルのスコアリング機能が得られる。
今では、あらゆる種類の部屋や素材を模倣した約6万の合成インパルス応答のライブラリを通して、簡単な畳み込み操作を用いて、特定の部屋で演奏されたような音を変換しています。
知覚的評価器は音楽音のランク付けに使われ、音を奏でるために「最高の部屋またはコンサートホール」を与える。
副産物として、音質の悪い音を「良い」音に変えるために室内音響を用いることもできる。
関連論文リスト
- AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - SoundCam: A Dataset for Finding Humans Using Room Acoustics [22.279282163908462]
SoundCamは、Wildの部屋から公開されたユニークなRIRのデータセットとして、これまでで最大のものです。
これには、室内のインパルス応答の10チャンネルの実世界計測と、3つの部屋における2000の10チャンネルの音楽記録が含まれる。
これらの測定は、人間の検出や識別、位置の追跡など、興味深いタスクに利用できることを示す。
論文 参考訳(メタデータ) (2023-11-06T20:51:16Z) - Exploiting Time-Frequency Conformers for Music Audio Enhancement [21.243039524049614]
コンフォーマーアーキテクチャに基づく音楽強調システムを提案する。
提案手法はコンフォーマーの注意機構を探索し,その性能を検証し,音楽強調作業における最善のアプローチを見出す。
論文 参考訳(メタデータ) (2023-08-24T06:56:54Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Listen2Scene: Interactive material-aware binaural sound propagation for
reconstructed 3D scenes [69.03289331433874]
仮想現実(VR)および拡張現実(AR)アプリケーションのためのエンドツーエンドオーディオレンダリング手法(Listen2Scene)を提案する。
実環境の3次元モデルに対する音響効果を生成するために,ニューラルネットを用いた新しい音響伝搬法を提案する。
論文 参考訳(メタデータ) (2023-02-02T04:09:23Z) - One-Shot Acoustic Matching Of Audio Signals -- Learning to Hear Music In
Any Room/ Concert Hall [3.652509571098291]
興味ある音を他の音響空間に変換できる新しいアーキテクチャを提案する。
我々のフレームワークは、ニューラルネットワークが時間周波数表現における各点の利得を調整することを可能にする。
論文 参考訳(メタデータ) (2022-10-27T19:54:05Z) - Visual Acoustic Matching [92.91522122739845]
本稿では,音声クリップがターゲット環境に録音されたような音に変換される視覚的音響マッチングタスクを提案する。
対象の環境の画像とソースオーディオの波形が与えられた場合、その視覚的幾何学や材料によって示唆されるように、ターゲットの部屋の音響と一致するように、オーディオを再合成することが目的である。
論文 参考訳(メタデータ) (2022-02-14T17:05:22Z) - Learning Audio-Visual Dereverberation [87.52880019747435]
環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。
我々の考えは、音声・視覚的観察から音声を除去することである。
そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
論文 参考訳(メタデータ) (2021-06-14T20:01:24Z) - Joint Blind Room Acoustic Characterization From Speech And Music Signals
Using Convolutional Recurrent Neural Networks [13.12834490248018]
残響時間、明瞭度、直接残響比は、残響環境を記述するために定義された音響パラメータである。
最近の音声と機械学習を組み合わせると、これらのパラメータは音声や音楽信号を使って盲目的に推定できる。
音声および/または音楽信号を用いた視覚的関節音響パラメータ推定のための頑健なエンドツーエンド手法を提案する。
論文 参考訳(メタデータ) (2020-10-21T17:41:21Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。