論文の概要: Image2Reverb: Cross-Modal Reverb Impulse Response Synthesis
- arxiv url: http://arxiv.org/abs/2103.14201v1
- Date: Fri, 26 Mar 2021 01:25:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-29 23:11:39.596133
- Title: Image2Reverb: Cross-Modal Reverb Impulse Response Synthesis
- Title(参考訳): Image2Reverb:クロスモーダルリバーブインパルス応答合成
- Authors: Nikhil Singh and Jeff Mentch and Jerry Ng and Matthew Beveridge and
Iddo Drori
- Abstract要約: 音響環境の単一画像から可聴音インパルス応答を生成するために、エンドツーエンドのニューラルネットワークアーキテクチャを使用します。
多様な設定やフォーマットからもっともらしいインパルス応答を生成することで、我々のアプローチを実証する。
- 参考スコア(独自算出の注目度): 0.3587367153279349
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Measuring the acoustic characteristics of a space is often done by capturing
its impulse response (IR), a representation of how a full-range stimulus sound
excites it. This is the first work that generates an IR from a single image,
which we call Image2Reverb. This IR is then applied to other signals using
convolution, simulating the reverberant characteristics of the space shown in
the image. Recording these IRs is both time-intensive and expensive, and often
infeasible for inaccessible locations. We use an end-to-end neural network
architecture to generate plausible audio impulse responses from single images
of acoustic environments. We evaluate our method both by comparisons to ground
truth data and by human expert evaluation. We demonstrate our approach by
generating plausible impulse responses from diverse settings and formats
including well known places, musical halls, rooms in paintings, images from
animations and computer games, synthetic environments generated from text,
panoramic images, and video conference backgrounds.
- Abstract(参考訳): 空間の音響特性の測定は、インパルス応答(ir)を捉えて行われることが多い。
これは、イメージ2Reverbと呼ばれる単一の画像からIRを生成する最初の作品です。
このIRは畳み込みを用いて他の信号に適用され、画像に示される空間の残響特性をシミュレートする。
これらの赤外線を記録することは時間集約的かつ高価であり、しばしばアクセス不能な場所では利用できない。
エンド・ツー・エンドのニューラルネットワークアーキテクチャを用いて、音響環境の単一画像から可塑性音声インパルス応答を生成する。
本手法は,地中真理データとの比較と,人的専門家による評価により評価する。
我々は,よく知られた場所,音楽ホール,絵画の部屋,アニメーションやコンピュータゲームの画像,テキストから生成された合成環境,パノラマ画像,ビデオ会議の背景など,さまざまな設定や形式から,もっともらしいインパルス応答を生成することによって,我々のアプローチを実証する。
関連論文リスト
- Hearing Anything Anywhere [26.415266601469767]
DiffRIRは,シーンの音響特性を解釈可能なパラメトリックモデルで表現可能なRIRレンダリングフレームワークである。
これにより、任意のソースオーディオを用いて、空間を通して新しい聴覚体験を合成することができる。
我々のモデルは、モノラルなRIRや音楽のレンダリングにおいて、最先端のベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-11T17:56:14Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - AV-RIR: Audio-Visual Room Impulse Response Estimation [49.469389715876915]
室内インパルス応答(RIR)の正確な推定は,音声処理やAR/VR応用において重要である。
本稿では,与えられた残響音声信号と対応する環境の視覚的手がかりからRIRを正確に推定する,新しいマルチモーダルマルチタスク学習手法であるAV-RIRを提案する。
論文 参考訳(メタデータ) (2023-11-30T22:58:30Z) - An Integrated Algorithm for Robust and Imperceptible Audio Adversarial
Examples [2.2866551516539726]
実効性のある音声ファイルが生成され、認識性や頑健性に関して微調整される。
本稿では,心理音響モデルと室内インパルス応答(RIR)を用いた統合アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-05T06:59:09Z) - Neural Acoustic Context Field: Rendering Realistic Room Impulse Response
With Neural Fields [61.07542274267568]
このレターでは、音声シーンをパラメータ化するためのNACFと呼ばれる新しいニューラルネットワークコンテキストフィールドアプローチを提案する。
RIRのユニークな性質により、時間相関モジュールとマルチスケールエネルギー崩壊基準を設計する。
実験の結果,NACFは既存のフィールドベース手法よりも顕著なマージンで優れていた。
論文 参考訳(メタデータ) (2023-09-27T19:50:50Z) - Synthetic Wave-Geometric Impulse Responses for Improved Speech
Dereverberation [69.1351513309953]
室内インパルス応答 (RIR) の低周波成分を正確にシミュレートすることが, 良好な脱ヴァーベレーションを実現する上で重要であることを示す。
本研究では, ハイブリッド合成RIRで訓練された音声残響モデルが, 従来の幾何線トレーシング法により学習されたRIRで訓練されたモデルよりも優れていたことを示す。
論文 参考訳(メタデータ) (2022-12-10T20:15:23Z) - One-Shot Acoustic Matching Of Audio Signals -- Learning to Hear Music In
Any Room/ Concert Hall [3.652509571098291]
興味ある音を他の音響空間に変換できる新しいアーキテクチャを提案する。
我々のフレームワークは、ニューラルネットワークが時間周波数表現における各点の利得を調整することを可能にする。
論文 参考訳(メタデータ) (2022-10-27T19:54:05Z) - Few-Shot Audio-Visual Learning of Environment Acoustics [89.16560042178523]
室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。
我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。
3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-08T16:38:24Z) - Neural Radiance Flow for 4D View Synthesis and Video Processing [59.9116932930108]
本稿では,RGB画像から動的シーンの4次元空間時空間表現を学習する手法を提案する。
私たちのアプローチの鍵は、シーンの3D占有率、輝度、およびダイナミクスをキャプチャすることを学ぶ神経暗黙表現を使用することです。
論文 参考訳(メタデータ) (2020-12-17T17:54:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。