論文の概要: The Sonar Moment: Benchmarking Audio-Language Models in Audio Geo-Localization
- arxiv url: http://arxiv.org/abs/2601.03227v1
- Date: Tue, 06 Jan 2026 18:13:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:13.05382
- Title: The Sonar Moment: Benchmarking Audio-Language Models in Audio Geo-Localization
- Title(参考訳): ソナーモーメント:ジオローカライゼーションにおけるオーディオ言語モデルのベンチマーク
- Authors: Ruixing Zhang, Zihan Liu, Leilei Sun, Tongyu Zhu, Weifeng Lv,
- Abstract要約: AGL1Kは、音声言語モデル(ALM)のための最初のオーディオジオローカライズベンチマークである。
クラウドソースプラットフォームから確実にローカライズ可能なサンプルを抽出するために,オーディオ・ローカライズビリティ・メトリックを提案する。
クローズド・ソース・モデルはオープンソース・モデルよりも大幅に優れており、言語的手がかりが予測の足場として支配されることが多い。
- 参考スコア(独自算出の注目度): 31.970828788340782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Geo-localization aims to infer the geographic origin of a given signal. In computer vision, geo-localization has served as a demanding benchmark for compositional reasoning and is relevant to public safety. In contrast, progress on audio geo-localization has been constrained by the lack of high-quality audio-location pairs. To address this gap, we introduce AGL1K, the first audio geo-localization benchmark for audio language models (ALMs), spanning 72 countries and territories. To extract reliably localizable samples from a crowd-sourced platform, we propose the Audio Localizability metric that quantifies the informativeness of each recording, yielding 1,444 curated audio clips. Evaluations on 16 ALMs show that ALMs have emerged with audio geo-localization capability. We find that closed-source models substantially outperform open-source models, and that linguistic clues often dominate as a scaffold for prediction. We further analyze ALMs' reasoning traces, regional bias, error causes, and the interpretability of the localizability metric. Overall, AGL1K establishes a benchmark for audio geo-localization and may advance ALMs with better geospatial reasoning capability.
- Abstract(参考訳): ジオローカライゼーションは、与えられた信号の地理的起源を推測することを目的としている。
コンピュータビジョンでは、ジオローカライゼーションは構成的推論の要求ベンチマークとして機能し、公共の安全に関係している。
対照的に、高品質なオーディオロケーションペアの欠如により、オーディオジオローカライゼーションの進歩が制限されている。
このギャップに対処するため、72か国と領域にまたがるオーディオ言語モデル(ALM)の最初のオーディオジオローカライゼーションベンチマークであるAGL1Kを紹介した。
クラウドソースプラットフォームから確実なローカライズ可能なサンプルを抽出するために,各録音の情報を定量化して1,444個のキュレートされた音声クリップを生成するAudio Localizability Metricsを提案する。
16個のALMの評価は、ALMがオーディオジオローカライズ機能によって出現したことを示している。
クローズド・ソース・モデルはオープンソース・モデルよりも大幅に優れており、言語的手がかりが予測の足場として支配されることが多い。
さらに、ALMの推論トレース、地域バイアス、エラー原因、およびローカライズビリティ指標の解釈可能性について分析する。
全体として、AGL1Kはオーディオジオローカライゼーションのベンチマークを確立し、地理空間推論能力の向上によりALMを前進させる可能性がある。
関連論文リスト
- Sci-Phi: A Large Language Model Spatial Audio Descriptor [25.302416479626974]
Sci-Phi は空間空間エンコーダとスペクトルエンコーダを備えた空間音響モデルである。
1回のパスで最大4つの方向の音源を列挙し、記述する。
性能をわずかに低下させるだけで、実際の部屋のインパルス応答に一般化する。
論文 参考訳(メタデータ) (2025-10-07T03:06:02Z) - Audio Geolocation: A Natural Sounds Benchmark [19.465945807341605]
我々は,iNatSoundsデータセットからの野生生物のオーディオを用いて,グローバルなオーディオ位置情報の課題に取り組み,問題を形式化し,詳細な分析を行う。
視覚に触発されたアプローチを採用することで、音声記録をスペクトログラムに変換し、既存の画像位置決め手法をベンチマークする。
我々の研究は、オーディオと視覚的手がかりを統合する利点を強調し、将来のオーディオ測地研究の舞台となる。
論文 参考訳(メタデータ) (2025-05-24T14:49:49Z) - GeoLLM: Extracting Geospatial Knowledge from Large Language Models [49.20315582673223]
大規模言語モデルから地理空間的知識を効果的に抽出する新しい手法であるGeoLLMを提案する。
我々は、人口密度や経済生活の計測など、国際社会への関心の中心となる複数の課題にまたがるアプローチの有用性を実証する。
実験の結果, LLMは試料効率が高く, 地理空間情報に富み, 世界中のロバストであることがわかった。
論文 参考訳(メタデータ) (2023-10-10T00:03:23Z) - Separate Anything You Describe [53.30484933564858]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである
AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文 参考訳(メタデータ) (2023-08-09T16:09:44Z) - Separate What You Describe: Language-Queried Audio Source Separation [53.65665794338574]
言語問合せ音声ソース分離(LASS)の課題について紹介する。
LASSは、ターゲットソースの自然言語クエリに基づいて、ターゲットソースをオーディオミックスから分離することを目的としている。
本稿では,音響情報と言語情報を協調処理するエンドツーエンドニューラルネットワークLASS-Netを提案する。
論文 参考訳(メタデータ) (2022-03-28T23:47:57Z) - Geographic Adaptation of Pretrained Language Models [29.81557992080902]
マルチタスク学習環境において,言語モデリングと位置情報予測を併用する中間学習ステップであるジオアダプテーションを導入する。
ジオアダプテーションの有効性は、事前訓練された言語モデルの表現空間を地理的に再現する能力に起因していることを示す。
論文 参考訳(メタデータ) (2022-03-16T11:55:00Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。