論文の概要: Geo-ATBench: A Benchmark for Geospatial Audio Tagging with Geospatial Semantic Context
- arxiv url: http://arxiv.org/abs/2603.10623v1
- Date: Wed, 11 Mar 2026 10:34:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.898221
- Title: Geo-ATBench: A Benchmark for Geospatial Audio Tagging with Geospatial Semantic Context
- Title(参考訳): Geo-ATBench:Geospatial Semantic Contextを用いたGeospatial Audio Taggingのベンチマーク
- Authors: Yuanbo Hou, Yanru Wu, Qiaoqiao Ren, Shengchen Li, Stephen Roberts, Dick Botteldooren,
- Abstract要約: GeoFusion-ATは、代表音声のバックボーンに特徴、表現、決定レベルの融合を評価できる統合ジオオーディオ融合フレームワークとして提案されている。
以上の結果から, GSCを組み込むことでAT性能が向上することがわかった。
- 参考スコア(独自算出の注目度): 16.979013371188074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Environmental sound understanding in computational auditory scene analysis (CASA) is often formulated as an audio-only recognition problem. This formulation leaves a persistent drawback in multi-label audio tagging (AT): acoustic similarity can make certain events difficult to separate from waveforms alone. In such cases, disambiguating cues often lie outside the waveform. Geospatial semantic context (GSC), derived from geographic information system data, e.g., points of interest (POI), provides location-tied environmental priors that can help reduce this ambiguity. A systematic study of this direction is enabled through the proposed geospatial audio tagging (Geo-AT) task, which conditions multi-label sound event tagging on GSC alongside audio. To benchmark Geo-AT, Geo-ATBench is introduced as a polyphonic audio benchmark with geographical annotations, containing 10.71 hours of audio across 28 event categories; each clip is paired with a GSC representation from 11 semantic context categories. GeoFusion-AT is proposed as a unified geo-audio fusion framework that evaluates feature-, representation-, and decision-level fusion on representative audio backbones, with audio- and GSC-only baselines. Results show that incorporating GSC improves AT performance, especially on acoustically confounded labels, indicating geospatial semantics provide effective priors beyond audio alone. A crowdsourced listening study with 10 participants on 579 samples shows that there is no significant difference in performance between models on Geo-ATBench labels and aggregated human labels, supporting Geo-ATBench as a human-aligned benchmark. The Geo-AT task, benchmark Geo-ATBench, and reproducible geo-audio fusion framework GeoFusion-AT provide a foundation for studying AT with geospatial semantic context within the CASA community. Dataset, code, models are on homepage (https://github.com/WuYanru2002/Geo-ATBench).
- Abstract(参考訳): CASA(Computer auditory scene analysis)における環境音の理解は、しばしば音声のみの認識問題として定式化される。
この定式化は、マルチラベルオーディオタギング(AT: Multi-label audio tagging)において永続的な欠点を残している。
そのような場合、曖昧なキューはしばしば波形の外側に置かれる。
地理空間意味文脈(Geospatial semantic context, GSC)は、地理情報システムデータ(例えば、関心点(POI))から派生したもので、そのあいまいさを軽減するのに役立つ位置付けされた環境事前情報を提供する。
この方向のシステマティックな研究は,GSCに複数ラベルの音声イベントタグを付加したGeo-AT(Geo-AT)タスクによって実現されている。
Geo-ATをベンチマークするために、Geo-ATBenchは地理的アノテーションを備えたポリフォニックオーディオベンチマークとして導入され、28のイベントカテゴリにわたる10.71時間のオーディオを含む。
GeoFusion-ATは、オーディオとGSCのみのベースラインで、代表オーディオのバックボーンに特徴、表現、決定レベルの融合を評価できる統合ジオオーディオ融合フレームワークとして提案されている。
以上の結果から,特に音響的に構築されたラベルにおいて,GSCを組み込むことでAT性能が向上することが示唆された。
579のサンプルに対する10人の参加者によるクラウドソースによる聞き取り調査では、Geo-ATBenchラベルと集約された人間ラベルのモデルのパフォーマンスに有意な差はないことが示され、Geo-ATBenchを人間対応のベンチマークとしてサポートしている。
Geo-ATタスク、ベンチマークGeo-ATBench、再現可能なジオオーディオ融合フレームワークGeoFusion-ATは、CASAコミュニティ内の地理空間意味コンテキストでATを研究する基盤を提供する。
データセット、コード、モデルはホームページにある(https://github.com/WuYanru2002/Geo-ATBench)。
関連論文リスト
- GeoAgent: Learning to Geolocate Everywhere with Reinforced Geographic Characteristics [91.17301794848025]
本稿では,人間と密に推論し,詳細なアドレス結論を導出できるGeoAgentについて述べる。
従来のRLベースの手法は、パフォーマンスと解釈可能性においてブレークスルーを達成したが、AI生成のチェーン・オブ・プリート(CoT)データとトレーニング戦略に依存しているため、依然として懸念が残っている。
論文 参考訳(メタデータ) (2026-02-13T04:48:05Z) - The Sonar Moment: Benchmarking Audio-Language Models in Audio Geo-Localization [31.970828788340782]
AGL1Kは、音声言語モデル(ALM)のための最初のオーディオジオローカライズベンチマークである。
クラウドソースプラットフォームから確実にローカライズ可能なサンプルを抽出するために,オーディオ・ローカライズビリティ・メトリックを提案する。
クローズド・ソース・モデルはオープンソース・モデルよりも大幅に優れており、言語的手がかりが予測の足場として支配されることが多い。
論文 参考訳(メタデータ) (2026-01-06T18:13:24Z) - Audio Geolocation: A Natural Sounds Benchmark [19.465945807341605]
我々は,iNatSoundsデータセットからの野生生物のオーディオを用いて,グローバルなオーディオ位置情報の課題に取り組み,問題を形式化し,詳細な分析を行う。
視覚に触発されたアプローチを採用することで、音声記録をスペクトログラムに変換し、既存の画像位置決め手法をベンチマークする。
我々の研究は、オーディオと視覚的手がかりを統合する利点を強調し、将来のオーディオ測地研究の舞台となる。
論文 参考訳(メタデータ) (2025-05-24T14:49:49Z) - Geo-Semantic-Parsing: AI-powered geoparsing by traversing semantic knowledge graphs [0.7422344184734279]
ジオ・セマンティック・パーシング(Geo-Semantic-Parsing, GSP)と呼ばれる新しいジオパーシングとジオタグ技術を導入する。
GSPは自由テキストで位置参照を特定し、対応する座標を抽出する。
我々は、約10kのイベント関連ツイートを含むよく知られた参照データセット上で、GSPを評価する。
論文 参考訳(メタデータ) (2025-03-03T10:30:23Z) - Geo-Encoder: A Chunk-Argument Bi-Encoder Framework for Chinese
Geographic Re-Ranking [61.60169764507917]
中国の地理的再ランクタスクは、検索された候補者の中で最も関連性の高い住所を見つけることを目的としている。
そこで我々は,中国語の地理的意味論をより効果的に統合する,革新的なフレームワークであるGeo-Encoderを提案する。
論文 参考訳(メタデータ) (2023-09-04T13:44:50Z) - GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark [56.08664336835741]
我々はGeoGLUEと呼ばれるGeoGraphic Language Understanding Evaluationベンチマークを提案する。
オープンソースの地理資源からデータを収集し、6つの自然言語理解タスクを導入する。
我々は,GeoGLUEベンチマークの有効性と意義を示す一般ベースラインの評価実験と解析を行った。
論文 参考訳(メタデータ) (2023-05-11T03:21:56Z) - MGeo: Multi-Modal Geographic Pre-Training Method [49.78466122982627]
マルチモーダルジオグラフィック言語モデル(MGeo)を提案する。
MGeoはGCを新しいモダリティとして表現し、正確なクエリ-POIマッチングのためのマルチモーダル相関を完全に抽出することができる。
提案するマルチモーダル事前学習法は,汎用PTMのクエリ-POIマッチング能力を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-11T03:05:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。