論文の概要: Audio-Visual Camera Pose Estimation with Passive Scene Sounds and In-the-Wild Video
- arxiv url: http://arxiv.org/abs/2512.12165v2
- Date: Tue, 16 Dec 2025 03:55:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 14:48:05.94503
- Title: Audio-Visual Camera Pose Estimation with Passive Scene Sounds and In-the-Wild Video
- Title(参考訳): パッシブ・シーンとインザ・ワイヤド・ビデオによる音声・映像カメラのポース推定
- Authors: Daniel Adebi, Sagnik Majumder, Kristen Grauman,
- Abstract要約: 本研究では,受動的シーン音が映像の相対的ポーズ推定に補助的手がかりとなることを示す。
そこで本稿では,DOAスペクトルと組込み型埋め込みを,最先端のポーズ推定モデルに組み込む,シンプルだが効果的な音声視覚フレームワークを提案する。
- 参考スコア(独自算出の注目度): 49.263724131046466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding camera motion is a fundamental problem in embodied perception and 3D scene understanding. While visual methods have advanced rapidly, they often struggle under visually degraded conditions such as motion blur or occlusions. In this work, we show that passive scene sounds provide complementary cues for relative camera pose estimation for in-the-wild videos. We introduce a simple but effective audio-visual framework that integrates direction-ofarrival (DOA) spectra and binauralized embeddings into a state-of-the-art vision-only pose estimation model. Our results on two large datasets show consistent gains over strong visual baselines, plus robustness when the visual information is corrupted. To our knowledge, this represents the first work to successfully leverage audio for relative camera pose estimation in real-world videos, and it establishes incidental, everyday audio as an unexpected but promising signal for a classic spatial challenge. Project: http://vision.cs.utexas.edu/projects/av_camera_pose.
- Abstract(参考訳): カメラの動きを理解することは、知覚の具体化と3Dシーン理解の基本的な問題である。
視覚的手法は急速に進歩してきたが、運動のぼやけや閉塞といった視覚的に劣化した条件下では、しばしば苦労する。
そこで本研究では,受動的シーン音が映像の相対的なポーズ推定に役立てることを示す。
そこで本稿では,DOAスペクトルとバイノーラル化埋め込みを,最先端の視覚のみのポーズ推定モデルに組み込む,シンプルだが効果的な音声視覚フレームワークを提案する。
2つの大きなデータセットの結果は、強い視覚的ベースラインよりも一貫した利得を示し、視覚情報が破損した場合の堅牢性を示した。
我々の知る限り、これは実世界のビデオにおける相対的なカメラポーズ推定に音声をうまく活用する最初の試みであり、古典的な空間的課題に対する予期せぬが有望な信号として、偶発的、日常的なオーディオを確立するものである。
プロジェクト: http://vision.cs.utexas.edu/projects/av_camera_pose
関連論文リスト
- MegaSaM: Accurate, Fast, and Robust Structure and Motion from Casual Dynamic Videos [104.1338295060383]
本研究では,ダイナミックシーンのカジュアルモノクラー映像から,カメラパラメータと奥行きマップの精度,高速,堅牢な推定を可能にするシステムを提案する。
本システムは,先行作業や同時作業と比較して,カメラポーズや深度推定において有意に精度が高く,頑健である。
論文 参考訳(メタデータ) (2024-12-05T18:59:42Z) - 3D Audio-Visual Segmentation [52.34970001474347]
ロボット工学やAR/VR/MRに様々な応用がある。
本稿では,事前学習した2次元オーディオ視覚基盤モデルから,使用可能な知識を統合することで特徴付ける新しいアプローチであるEchoSegnetを提案する。
実験により、EchoSegnetは、私たちの新しいベンチマークで、3D空間の音声オブジェクトを効果的にセグメント化できることが実証された。
論文 参考訳(メタデータ) (2024-11-04T16:30:14Z) - FlowCam: Training Generalizable 3D Radiance Fields without Camera Poses
via Pixel-Aligned Scene Flow [26.528667940013598]
ポーズ画像からの3次元ニューラルネットワークの再構成は、自己教師付き表現学習の有望な方法として現れている。
これらの3Dシーンの学習者が大規模ビデオデータに展開するのを防ぐ重要な課題は、構造から移動までの正確なカメラポーズに依存することである。
本稿では,オンラインと1つのフォワードパスでカメラポーズと3Dニューラルシーン表現を共同で再構築する手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T20:58:46Z) - RUST: Latent Neural Scene Representations from Unposed Imagery [21.433079925439234]
2次元観察から3次元シーンの構造を推定することは、コンピュータビジョンにおける根本的な課題である。
ニューラルシーン表現に基づく最近の普及したアプローチは、非常に大きな影響を与えている。
RUST(Really Unposed Scene representation Transformer)は、RGB画像だけで訓練された新しいビューに対するポーズレスアプローチである。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - AVATAR: Unconstrained Audiovisual Speech Recognition [75.17253531162608]
本稿では,ASR TrAnsformeR (AVATAR) を用いて,スペクトルとフルフレームRGBからエンドツーエンドにトレーニングした新しいシーケンス・ツー・シーケンスASR TrAnsformeRを提案する。
本稿では,ハウ2 AV-ASR ベンチマークにおける視覚的モダリティの寄与を,特にシミュレートノイズの存在下で実証する。
また、我々はAV-ASRのための新しい実世界テストベッドVisSpeechを作成し、挑戦的な音声条件下での視覚的モダリティの寄与を実証した。
論文 参考訳(メタデータ) (2022-06-15T17:33:19Z) - Attentive and Contrastive Learning for Joint Depth and Motion Field
Estimation [76.58256020932312]
単眼視システムからシーンの3次元構造とともにカメラの動きを推定することは複雑な作業である。
モノクロ映像からの3次元物体運動場推定のための自己教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:45:01Z) - A proto-object based audiovisual saliency map [0.0]
本研究では,動的自然シーンの分析を行うために,プロトオブジェクトベースオーディオビジュアル・サリエンシ・マップ(AVSM)を開発した。
このような環境は、監視、ロボットナビゲーション、ビデオ圧縮および関連するアプリケーションに有用である。
論文 参考訳(メタデータ) (2020-03-15T08:34:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。