論文の概要: Novel-View Acoustic Synthesis
- arxiv url: http://arxiv.org/abs/2301.08730v3
- Date: Tue, 24 Oct 2023 20:19:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 18:18:12.809435
- Title: Novel-View Acoustic Synthesis
- Title(参考訳): 新視点音響合成
- Authors: Changan Chen, Alexander Richard, Roman Shapovalov, Vamsi Krishna
Ithapu, Natalia Neverova, Kristen Grauman, Andrea Vedaldi
- Abstract要約: 本稿では,NVASタスクについて紹介する。
音源の視点で観測された視界と音から 見えない対象の視点から そのシーンの音を合成できるか?
空間内の任意の点の音を合成することを学ぶ視覚誘導音響合成(ViGAS)ネットワークを提案する。
- 参考スコア(独自算出の注目度): 140.1107768313269
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the novel-view acoustic synthesis (NVAS) task: given the sight
and sound observed at a source viewpoint, can we synthesize the sound of that
scene from an unseen target viewpoint? We propose a neural rendering approach:
Visually-Guided Acoustic Synthesis (ViGAS) network that learns to synthesize
the sound of an arbitrary point in space by analyzing the input audio-visual
cues. To benchmark this task, we collect two first-of-their-kind large-scale
multi-view audio-visual datasets, one synthetic and one real. We show that our
model successfully reasons about the spatial cues and synthesizes faithful
audio on both datasets. To our knowledge, this work represents the very first
formulation, dataset, and approach to solve the novel-view acoustic synthesis
task, which has exciting potential applications ranging from AR/VR to art and
design. Unlocked by this work, we believe that the future of novel-view
synthesis is in multi-modal learning from videos.
- Abstract(参考訳): 我々は,nvas(new-view acoustic synthesis)タスクについて紹介する。音源の視点で観測された視覚と音を考えると,対象とする視点からそのシーンの音を合成できるのか?
入力された音声・視覚的手がかりを分析し,空間内の任意の点の音を合成することを学ぶ視覚誘導音響合成(ViGAS)ネットワークを提案する。
このタスクをベンチマークするために、我々は2つの大規模マルチビューオーディオ視覚データセットを収集した。
提案手法は,空間的手がかりの推論に成功し,両データセットに忠実な音声を合成することを示す。
我々の知る限り、この研究は、AR/VRからアート、デザインに至るまで、エキサイティングな可能性のある、新しい視点の音響合成タスクを解決するための、最初の定式化、データセット、アプローチを表している。
この研究に縛られずに、我々は、新しいビュー合成の未来は、ビデオからのマルチモーダル学習にあると信じている。
関連論文リスト
- AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - ORES: Open-vocabulary Responsible Visual Synthesis [104.7572323359984]
我々は、新しいタスクであるオープン語彙対応視覚合成(ORES)を定式化し、そこで合成モデルは、禁止された視覚概念を避けることができる。
この問題に対処するため,我々はTIN(Two-stage Intervention)フレームワークを提案する。
1)大規模言語モデル(LLM)による学習可能な命令による書き直し,2)拡散モデルへの迅速な介入による合成を行うことで,概念を避けながら可能な限りユーザのクエリに従うイメージを効果的に合成することができる。
論文 参考訳(メタデータ) (2023-08-26T06:47:34Z) - Diff-TTSG: Denoising probabilistic integrated speech and gesture
synthesis [19.35266496960533]
本稿では,Diff-TTSGと呼ばれる拡散型確率モデルについて述べる。
本稿では,統合音声とジェスチャー合成システムを評価するための,一様・多様主観的一様・多様主観的テストのセットについて述べる。
論文 参考訳(メタデータ) (2023-06-15T18:02:49Z) - Novel View Synthesis of Humans using Differentiable Rendering [50.57718384229912]
我々は新しいポーズで人々の新しい視点を合成するための新しいアプローチを提案する。
我々の合成はヒトの骨格構造を表す拡散ガウス原始体を用いる。
これらのプリミティブをレンダリングすると、高次元の潜像が得られ、デコーダネットワークによってRGBイメージに変換される。
論文 参考訳(メタデータ) (2023-03-28T10:48:33Z) - AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene
Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。
音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。
本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-04T04:17:19Z) - Neural Synthesis of Footsteps Sound Effects with Generative Adversarial
Networks [14.78990136075145]
本稿では,フットステップ音響効果にニューラル合成を適用した最初の試みについて述べる。
私たちのアーキテクチャは、記録されたサンプルと同じくらいのリアリズムスコアに達し、励ましの結果を示しました。
論文 参考訳(メタデータ) (2021-10-18T20:04:46Z) - NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis [78.5281048849446]
本稿では,複雑なシーンの新たなビューを合成する手法を提案する。
提案アルゴリズムは,完全接続型(非畳み込み型)深層ネットワークを用いたシーンを表現する。
ボリュームレンダリングは自然に微分可能であるため、表現を最適化するのに必要な唯一の入力は、既知のカメラポーズを持つ画像の集合である。
論文 参考訳(メタデータ) (2020-03-19T17:57:23Z) - Unsupervised Learning of Audio Perception for Robotics Applications:
Learning to Project Data to T-SNE/UMAP space [2.8935588665357077]
本論文は,接地構造データにアクセスすることなく,触覚の知覚を構築するための重要なアイデアを基礎にしている。
我々は、古典的な信号処理のアイデアを活用して、高い精度で興味のある音の大量のデータを得る方法を示す。
論文 参考訳(メタデータ) (2020-02-10T20:33:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。