論文の概要: Structure from Silence: Learning Scene Structure from Ambient Sound
- arxiv url: http://arxiv.org/abs/2111.05846v1
- Date: Wed, 10 Nov 2021 18:55:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-11 15:21:42.554724
- Title: Structure from Silence: Learning Scene Structure from Ambient Sound
- Title(参考訳): サイレントからの構造:環境音からシーン構造を学ぶ
- Authors: Ziyang Chen, Xixi Hu, Andrew Owens
- Abstract要約: 環境音が3次元シーン構造に関する情報を伝達するかどうかを問うとともに,その場合,マルチモーダルモデルに有用な学習信号を提供するか否かを問う。
室内の静かなシーンから,2組のオーディオとRGB-D録音のデータセットを収集する。
次に、入力としてオーディオのみを前提として、近くの壁までの距離を推定するモデルをトレーニングします。
また、これらの記録を用いて自己監督を通してマルチモーダル表現を学習し、ネットワークに画像と対応する音を関連づけるように訓練する。
- 参考スコア(独自算出の注目度): 14.834284796957869
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: From whirling ceiling fans to ticking clocks, the sounds that we hear subtly
vary as we move through a scene. We ask whether these ambient sounds convey
information about 3D scene structure and, if so, whether they provide a useful
learning signal for multimodal models. To study this, we collect a dataset of
paired audio and RGB-D recordings from a variety of quiet indoor scenes. We
then train models that estimate the distance to nearby walls, given only audio
as input. We also use these recordings to learn multimodal representations
through self-supervision, by training a network to associate images with their
corresponding sounds. These results suggest that ambient sound conveys a
surprising amount of information about scene structure, and that it is a useful
signal for learning multimodal features.
- Abstract(参考訳): 天井のファンから時計の音まで、音はシーンを移動するごとに微妙に変わります。
これらの環境音が3dシーン構造に関する情報を伝達するかどうかと,マルチモーダルモデルに有用な学習信号を提供するかどうかを問う。
そこで本研究では,室内のさまざまな静かなシーンから,ペアオーディオとrgb-d記録のデータセットを収集する。
そして、音声のみを入力として、近くの壁までの距離を推定するモデルをトレーニングします。
また,これらの記録を用いて自己スーパービジョンによるマルチモーダル表現を学習し,画像と対応する音を関連付けるネットワークを訓練する。
これらの結果から,環境音はシーン構造に関する驚くほどの量の情報を伝達し,マルチモーダル特徴の学習に有用な信号であることが示唆された。
関連論文リスト
- Self-Supervised Audio-Visual Soundscape Stylization [22.734359700809126]
我々は、そのシーンから録音された音声-視覚条件の例から、異なるシーンで録音されたかのように入力音声を音声に操作する。
本モデルは,自然映像が繰り返し発生する音のイベントやテクスチャを含むという事実を活かして,自己監督を通じて学習する。
提案手法は,未ラベル・イン・ザ・ワイルドビデオによるトレーニングが成功し,付加的な視覚信号による予測能力の向上が期待できることを示す。
論文 参考訳(メタデータ) (2024-09-22T06:57:33Z) - AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene
Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。
音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。
本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-04T04:17:19Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - Learning Neural Acoustic Fields [110.22937202449025]
音が物理的場面でどのように伝搬するかを暗黙的に表現するニューラル・アコースティック・フィールズ(NAF)を導入する。
シーン内の音響伝搬を線形時間不変系としてモデル化することにより、NAFは全てのエミッタとリスナーの位置ペアを連続的にマッピングすることを学ぶ。
NAFの連続的な性質により、任意の場所でリスナーの空間音響を描画することができ、新しい場所での音の伝搬を予測できることを実証する。
論文 参考訳(メタデータ) (2022-04-04T17:59:37Z) - Active Audio-Visual Separation of Dynamic Sound Sources [93.97385339354318]
本稿では,カメラとマイクロホンを制御するための動作ポリシーを学習する,新しいトランスフォーマーメモリを備えた強化学習エージェントを提案する。
本モデルでは,時間変化のある音声ターゲットの連続的な分離を行うために,効率的な振る舞いを学習できることが示される。
論文 参考訳(メタデータ) (2022-02-02T02:03:28Z) - Geometry-Aware Multi-Task Learning for Binaural Audio Generation from
Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。
既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文 参考訳(メタデータ) (2021-11-21T19:26:45Z) - Robust Feature Learning on Long-Duration Sounds for Acoustic Scene
Classification [54.57150493905063]
音響シーン分類(ASC)は、所定の音声信号が記録されるシーンの種類(環境)を特定することを目的としている。
我々は,CNNを訓練するための頑健な特徴学習(RFL)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-11T03:33:05Z) - Exploiting Audio-Visual Consistency with Partial Supervision for Spatial
Audio Generation [45.526051369551915]
本論文では,モノラル映像を音声と視覚の要素間の関係を利用して変換するオーディオ空間化フレームワークを提案する。
ベンチマークデータセットに関する実験では,半教師ありシナリオと完全教師ありシナリオの両方において,提案フレームワークの有効性を確認した。
論文 参考訳(メタデータ) (2021-05-03T09:34:11Z) - Telling Left from Right: Learning Spatial Correspondence of Sight and
Sound [16.99266133458188]
本稿では,音声ストリーム内の空間情報を視覚ストリーム内の音源の位置に合わせるという原理を活用するための,新たな自己教師型タスクを提案する。
我々は、左右のオーディオチャンネルが反転したかどうかを判断するためにモデルを訓練し、視覚とオーディオストリーム間の空間的ローカライゼーションについて推論を強制する。
空間対応の理解により、3つの視覚的タスクにおいてモデルの性能が向上し、教師付きベースラインや自己教師付きベースラインよりも定量的に向上することが実証された。
論文 参考訳(メタデータ) (2020-06-11T04:00:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。