論文の概要: Sound Localization from Motion: Jointly Learning Sound Direction and
Camera Rotation
- arxiv url: http://arxiv.org/abs/2303.11329v2
- Date: Mon, 21 Aug 2023 14:59:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 00:32:23.103482
- Title: Sound Localization from Motion: Jointly Learning Sound Direction and
Camera Rotation
- Title(参考訳): 動きからの音像定位:音像方向とカメラ回転の協調学習
- Authors: Ziyang Chen, Shengyi Qian, Andrew Owens
- Abstract要約: 我々は、頭部を回転させると微妙だが幾何的に一貫した変化を起こす画像と音を使って、カメラの回転と音源の定位を推定する。
視覚モデルは、一対の画像からカメラの回転を予測し、音声モデルは、音源の方向を音から予測する。
これらのモデルをトレーニングして、互いに一致する予測を生成します。
本モデルでは, 実シーンと合成シーンの両方で回転を推定し, 最先端の自己監督手法と競合する精度で音源のローカライズを行う。
- 参考スコア(独自算出の注目度): 26.867430697990674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The images and sounds that we perceive undergo subtle but geometrically
consistent changes as we rotate our heads. In this paper, we use these cues to
solve a problem we call Sound Localization from Motion (SLfM): jointly
estimating camera rotation and localizing sound sources. We learn to solve
these tasks solely through self-supervision. A visual model predicts camera
rotation from a pair of images, while an audio model predicts the direction of
sound sources from binaural sounds. We train these models to generate
predictions that agree with one another. At test time, the models can be
deployed independently. To obtain a feature representation that is well-suited
to solving this challenging problem, we also propose a method for learning an
audio-visual representation through cross-view binauralization: estimating
binaural sound from one view, given images and sound from another. Our model
can successfully estimate accurate rotations on both real and synthetic scenes,
and localize sound sources with accuracy competitive with state-of-the-art
self-supervised approaches. Project site: https://ificl.github.io/SLfM/
- Abstract(参考訳): 私たちが知覚するイメージと音は、頭を回転させながら微妙だが幾何学的に一貫した変化をもたらす。
本稿では,音像定位法(SLfM: Sound Localization from Motion, SLfM: Sound Localization from Motion, SLfM: Sound Localization from Motion, SLfM)をカメラの回転と音源の定位を共同で推定する手法を提案する。
我々はこれらの課題を自己監督のみで解決することを学ぶ。
視覚モデルは一対の画像からカメラの回転を予測し、音声モデルはバイノーラル音から音源の方向を予測する。
これらのモデルをトレーニングして、互いに一致する予測を生成します。
テスト時には、モデルは独立してデプロイできる。
また,この課題を解決するのに適した特徴表現を得るために,一視点のバイノーラル化による音声視覚表現の学習手法を提案する。
本モデルでは, 実シーンと合成シーンの両方で正確な回転を推定し, 最先端の自己監督手法と競合する精度で音源をローカライズすることができる。
プロジェクトサイト: https://ificl.github.io/slfm/
関連論文リスト
- AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Sound to Visual Scene Generation by Audio-to-Visual Latent Alignment [22.912401512161132]
我々は、各モデルコンポーネントの学習手順をスケジューリングして、オーディオ・視覚的モダリティを関連付けるモデルの設計を行う。
入力音声を視覚的特徴に変換し,事前学習した生成器を用いて画像を生成する。
VEGAS と VGGSound のデータセットは,従来の手法よりもかなりよい結果が得られる。
論文 参考訳(メタデータ) (2023-03-30T16:01:50Z) - Listen2Scene: Interactive material-aware binaural sound propagation for
reconstructed 3D scenes [69.03289331433874]
仮想現実(VR)および拡張現実(AR)アプリケーションのためのエンドツーエンドオーディオレンダリング手法(Listen2Scene)を提案する。
実環境の3次元モデルに対する音響効果を生成するために,ニューラルネットを用いた新しい音響伝搬法を提案する。
論文 参考訳(メタデータ) (2023-02-02T04:09:23Z) - Mix and Localize: Localizing Sound Sources in Mixtures [10.21507741240426]
本稿では,複数の音源を同時に可視化する手法を提案する。
本手法は,Jabriらのランダムウォークにヒントを得た定式化を用いて,両課題を同時に解決する。
我々は、楽器と人間の音声による実験を通して、モデルが複数の音のローカライズに成功することを示す。
論文 参考訳(メタデータ) (2022-11-28T04:30:50Z) - Sound Localization by Self-Supervised Time Delay Estimation [22.125613860688357]
音の時間遅延を推定するには、各マイクが記録した信号間の対応を見つける必要がある。
我々は、視覚的トラッキングから最新の技術に基づいて、自己スーパービジョンを通してこれらの対応を学習する。
また,視覚誘導型ローカライゼーション課題を解決するマルチモーダルコントラスト学習モデルを提案する。
論文 参考訳(メタデータ) (2022-04-26T17:59:01Z) - Geometry-Aware Multi-Task Learning for Binaural Audio Generation from
Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。
既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文 参考訳(メタデータ) (2021-11-21T19:26:45Z) - Move2Hear: Active Audio-Visual Source Separation [90.16327303008224]
対象物からの音をより効果的に分離するために、エージェントがインテリジェントに動く必要があるアクティブオーディオビジュアルソース分離問題を紹介します。
エージェントのカメラとマイクロホン配置を時間とともに制御する移動ポリシーを訓練する強化学習アプローチを紹介します。
音源分離のための最大ペイオフで最小の動作シーケンスを見つけるモデルの能力を実証します。
論文 参考訳(メタデータ) (2021-05-15T04:58:08Z) - Unsupervised Sound Localization via Iterative Contrastive Learning [106.56167882750792]
データアノテーションを必要としない反復型コントラスト学習フレームワークを提案する。
次に、擬似ラベルを用いて、同じビデオからサンプリングされた視覚信号と音声信号の相関関係を学習する。
我々の反復的戦略は徐々に音像の局所化を奨励し、非発声領域と参照音声との相関を減少させる。
論文 参考訳(メタデータ) (2021-04-01T07:48:29Z) - Generating Visually Aligned Sound from Videos [83.89485254543888]
自然ビデオから音を生成するタスクに焦点をあてる。
音は時間的にも内容的にも視覚信号と一致しているべきです。
カメラの外部で発生する音は、ビデオコンテンツから推測することはできない。
論文 参考訳(メタデータ) (2020-07-14T07:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。