論文の概要: Audio Geolocation: A Natural Sounds Benchmark
- arxiv url: http://arxiv.org/abs/2505.18726v1
- Date: Sat, 24 May 2025 14:49:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.620985
- Title: Audio Geolocation: A Natural Sounds Benchmark
- Title(参考訳): オーディオジオロケーション:自然音のベンチマーク
- Authors: Mustafa Chasmai, Wuao Liu, Subhransu Maji, Grant Van Horn,
- Abstract要約: 我々は,iNatSoundsデータセットからの野生生物のオーディオを用いて,グローバルなオーディオ位置情報の課題に取り組み,問題を形式化し,詳細な分析を行う。
視覚に触発されたアプローチを採用することで、音声記録をスペクトログラムに変換し、既存の画像位置決め手法をベンチマークする。
我々の研究は、オーディオと視覚的手がかりを統合する利点を強調し、将来のオーディオ測地研究の舞台となる。
- 参考スコア(独自算出の注目度): 19.465945807341605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can we determine someone's geographic location purely from the sounds they hear? Are acoustic signals enough to localize within a country, state, or even city? We tackle the challenge of global-scale audio geolocation, formalize the problem, and conduct an in-depth analysis with wildlife audio from the iNatSounds dataset. Adopting a vision-inspired approach, we convert audio recordings to spectrograms and benchmark existing image geolocation techniques. We hypothesize that species vocalizations offer strong geolocation cues due to their defined geographic ranges and propose an approach that integrates species range prediction with retrieval-based geolocation. We further evaluate whether geolocation improves when analyzing species-rich recordings or when aggregating across spatiotemporal neighborhoods. Finally, we introduce case studies from movies to explore multimodal geolocation using both audio and visual content. Our work highlights the advantages of integrating audio and visual cues, and sets the stage for future research in audio geolocation.
- Abstract(参考訳): 聞こえてくる音から、誰かの地理的位置を純粋に特定できますか?
アコースティックな信号は、国や州、さらには都市でもローカライズできますか?
我々は,iNatSoundsデータセットからの野生生物のオーディオを用いて,グローバルなオーディオ位置情報の課題に取り組み,問題を形式化し,詳細な分析を行う。
視覚に触発されたアプローチを採用することで、音声記録をスペクトログラムに変換し、既存の画像位置決め手法をベンチマークする。
本研究では, 地理的範囲が定義されているため, 種の発声が強い位置推定手段を提供するという仮説を立てるとともに, 種範囲予測と検索に基づく位置推定を融合させるアプローチを提案する。
さらに,種数の多い記録を解析したり,時空間的に集積する場合に位置情報が改善するかどうかについても検討した。
最後に,映像のケーススタディとして,音声コンテンツと視覚コンテンツの両方を用いてマルチモーダル位置情報を探索する手法を提案する。
我々の研究は、オーディオと視覚的手がかりを統合する利点を強調し、将来のオーディオ測地研究の舞台となる。
関連論文リスト
- Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework [59.42946541163632]
3つの重要なコンポーネントを持つ包括的位置決めフレームワークを導入する。
大規模データセットGeoComp、新しい推論手法GeoCoT、評価指標GeoEval。
また,GeoCoTは解釈可能性を高めつつ,位置情報の精度を最大25%向上させることを示した。
論文 参考訳(メタデータ) (2025-02-19T14:21:25Z) - PSM: Learning Probabilistic Embeddings for Multi-scale Zero-Shot Soundscape Mapping [7.076417856575795]
サウンドスケープは、ある場所で知覚される音響環境によって定義される。
本研究では,地球上の音環境をマッピングする枠組みを提案する。
我々は、マルチスケールの衛星画像で位置を表現し、この画像、音声、テキストの合同表現を学習する。
論文 参考訳(メタデータ) (2024-08-13T17:37:40Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - Learning Tri-modal Embeddings for Zero-Shot Soundscape Mapping [8.545983117985434]
我々は、特定の地理的位置で知覚される最も可能性の高い音を予測することを含む、音の景観マッピングの課題に焦点を当てる。
我々は、最近の最先端モデルを用いて、ジオタグ付き音声を符号化し、音声のテキスト記述と、そのキャプチャ位置のオーバーヘッド画像を作成する。
我々のアプローチは既存のSOTAよりも優れており、画像からオーディオへのリコール@100が0.256から0.450に改善されている。
論文 参考訳(メタデータ) (2023-09-19T14:49:50Z) - GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark [56.08664336835741]
我々はGeoGLUEと呼ばれるGeoGraphic Language Understanding Evaluationベンチマークを提案する。
オープンソースの地理資源からデータを収集し、6つの自然言語理解タスクを導入する。
我々は,GeoGLUEベンチマークの有効性と意義を示す一般ベースラインの評価実験と解析を行った。
論文 参考訳(メタデータ) (2023-05-11T03:21:56Z) - G^3: Geolocation via Guidebook Grounding [92.46774241823562]
本研究では,人間が位置情報に用いている視覚的特徴を記述した人書きガイドブックから,明示的な知識について検討する。
多様な場所からのストリートビュー画像のデータセットを用いたガイドブックグラウンディングによるジオロケーションのタスクを提案する。
提案手法は,Top-1の精度が5%以上向上し,最先端の画像のみの位置決め法よりも大幅に向上する。
論文 参考訳(メタデータ) (2022-11-28T16:34:40Z) - Catch Me If You Hear Me: Audio-Visual Navigation in Complex Unmapped
Environments with Moving Sounds [5.002862602915434]
オーディオ視覚ナビゲーションは、視覚と聴覚を組み合わせて、マップされていない環境で音を発する音源にナビゲートする。
そこで本研究では,ノイズや邪魔な音を伴って環境中を移動した音源をキャッチする必要がある動的視覚ナビゲーションベンチマークを提案する。
我々の手法は、音の移動、聴覚のない音、騒々しい環境など、あらゆるタスクにおいて、最先端技術よりも一貫して優れています。
論文 参考訳(メタデータ) (2021-11-29T15:17:46Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。