論文の概要: Learning Neural Acoustic Fields
- arxiv url: http://arxiv.org/abs/2204.00628v1
- Date: Mon, 4 Apr 2022 17:59:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-05 14:38:35.204651
- Title: Learning Neural Acoustic Fields
- Title(参考訳): 学習神経音場
- Authors: Andrew Luo, Yilun Du, Michael J. Tarr, Joshua B. Tenenbaum, Antonio
Torralba, Chuang Gan
- Abstract要約: 音が物理的場面でどのように伝搬するかを暗黙的に表現するニューラル・アコースティック・フィールズ(NAF)を導入する。
シーン内の音響伝搬を線形時間不変系としてモデル化することにより、NAFは全てのエミッタとリスナーの位置ペアを連続的にマッピングすることを学ぶ。
NAFの連続的な性質により、任意の場所でリスナーの空間音響を描画することができ、新しい場所での音の伝搬を予測できることを実証する。
- 参考スコア(独自算出の注目度): 110.22937202449025
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Our environment is filled with rich and dynamic acoustic information. When we
walk into a cathedral, the reverberations as much as appearance inform us of
the sanctuary's wide open space. Similarly, as an object moves around us, we
expect the sound emitted to also exhibit this movement. While recent advances
in learned implicit functions have led to increasingly higher quality
representations of the visual world, there have not been commensurate advances
in learning spatial auditory representations. To address this gap, we introduce
Neural Acoustic Fields (NAFs), an implicit representation that captures how
sounds propagate in a physical scene. By modeling acoustic propagation in a
scene as a linear time-invariant system, NAFs learn to continuously map all
emitter and listener location pairs to a neural impulse response function that
can then be applied to arbitrary sounds. We demonstrate that the continuous
nature of NAFs enables us to render spatial acoustics for a listener at an
arbitrary location, and can predict sound propagation at novel locations. We
further show that the representation learned by NAFs can help improve visual
learning with sparse views. Finally, we show that a representation informative
of scene structure emerges during the learning of NAFs.
- Abstract(参考訳): 私たちの環境は豊かでダイナミックな音響情報でいっぱいです。
大聖堂に入ると、外観だけでなく残響も聖域の広い空間を知らせてくれる。
同様に、物体が私たちの周りを動くと、発せられる音がこの動きを示すことを期待します。
近年の学習的暗黙関数の進歩は視覚世界における高品質な表現の増大に繋がったが、空間的聴覚表現の学習には相応の進歩はなかった。
このギャップに対処するために,音が物理的な場面でどのように伝搬するかを暗黙的に表現するニューラル・アコースティック・フィールズ(NAF)を導入する。
シーン内の音響伝搬を線形時間不変系としてモデル化することにより、NAFは全てのエミッタとリスナーの位置ペアを任意の音に適用可能なニューラルインパルス応答関数に連続的にマッピングすることを学ぶ。
NAFの連続的な性質により、任意の場所でリスナーの空間音響を描画することができ、新しい場所での音の伝搬を予測できることを示す。
さらに,NAFが学習した表現が,疎視による視覚学習の改善に役立つことを示す。
最後に,NAFの学習中にシーン構造を示す表現が出現することを示す。
関連論文リスト
- SOAF: Scene Occlusion-aware Neural Acoustic Field [9.651041527067907]
そこで我々は,Scene Occlusion-aware Acoustic Field (SOAF) と呼ばれる新しい手法を提案する。
提案手法は,距離対応パラメトリック音波伝搬モデルを用いた音場に先行する手法である。
そこで我々は、Fibonacci Sphereを用いて、受信機を中心にした局所音場から特徴を抽出し、新しい視聴のための音声を生成する。
論文 参考訳(メタデータ) (2024-07-02T13:40:56Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - NeRAF: 3D Scene Infused Neural Radiance and Acoustic Fields [3.954853544590893]
本研究では,音場と放射場を共同で学習するNeRAFを提案する。
NeRAFは、新しい視点と空間化された部屋インパルス応答(RIR)の両方を新しい位置で合成する。
我々は、NeRAFがSoundSpacesおよびRAFデータセット上で高品質なオーディオを生成することを実証した。
論文 参考訳(メタデータ) (2024-05-28T14:17:41Z) - Self-Supervised Learning for Few-Shot Bird Sound Classification [10.395255631261458]
音声における自己教師あり学習(SSL)は、様々な領域において大きな可能性を秘めている。
本研究では,アノテーションを必要とせずに,音声録音から有意義な鳥の音の表現を抽出できることを実証する。
論文 参考訳(メタデータ) (2023-12-25T22:33:45Z) - Neural Acoustic Context Field: Rendering Realistic Room Impulse Response
With Neural Fields [61.07542274267568]
このレターでは、音声シーンをパラメータ化するためのNACFと呼ばれる新しいニューラルネットワークコンテキストフィールドアプローチを提案する。
RIRのユニークな性質により、時間相関モジュールとマルチスケールエネルギー崩壊基準を設計する。
実験の結果,NACFは既存のフィールドベース手法よりも顕著なマージンで優れていた。
論文 参考訳(メタデータ) (2023-09-27T19:50:50Z) - AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene
Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。
音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。
本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-04T04:17:19Z) - Geometry-Aware Multi-Task Learning for Binaural Audio Generation from
Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。
既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文 参考訳(メタデータ) (2021-11-21T19:26:45Z) - Learning Audio-Visual Dereverberation [87.52880019747435]
環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。
我々の考えは、音声・視覚的観察から音声を除去することである。
そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
論文 参考訳(メタデータ) (2021-06-14T20:01:24Z) - A proto-object based audiovisual saliency map [0.0]
本研究では,動的自然シーンの分析を行うために,プロトオブジェクトベースオーディオビジュアル・サリエンシ・マップ(AVSM)を開発した。
このような環境は、監視、ロボットナビゲーション、ビデオ圧縮および関連するアプリケーションに有用である。
論文 参考訳(メタデータ) (2020-03-15T08:34:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。