論文の概要: Improving Acoustic Scene Classification with City Features
- arxiv url: http://arxiv.org/abs/2503.16862v2
- Date: Fri, 13 Jun 2025 02:00:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 13:34:01.474812
- Title: Improving Acoustic Scene Classification with City Features
- Title(参考訳): 都市の特徴を考慮した音響シーン分類の改善
- Authors: Yiqiang Cai, Yizhou Tan, Shengchen Li, Xi Shao, Mark D. Plumbley,
- Abstract要約: City2Sceneは、都市の特徴を活用して音響シーンの分類を改善する新しいフレームワークである。
都市固有の知識を蒸留することで、City2Sceneは様々な軽量CNNバックボーンの精度を効果的に向上させる。
- 参考スコア(独自算出の注目度): 14.60560396933802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Acoustic scene recordings are often collected from a diverse range of cities. Most existing acoustic scene classification (ASC) approaches focus on identifying common acoustic scene patterns across cities to enhance generalization. However, the potential acoustic differences introduced by city-specific environmental and cultural factors are overlooked. In this paper, we hypothesize that the city-specific acoustic features are beneficial for the ASC task rather than being treated as noise or bias. To this end, we propose City2Scene, a novel framework that leverages city features to improve ASC. Unlike conventional approaches that may discard or suppress city information, City2Scene transfers the city-specific knowledge from pre-trained city classification models to scene classification model using knowledge distillation. We evaluate City2Scene on three datasets of DCASE Challenge Task 1, which include both scene and city labels. Experimental results demonstrate that city features provide valuable information for classifying scenes. By distilling city-specific knowledge, City2Scene effectively improves accuracy across a variety of lightweight CNN backbones, achieving competitive performance to the top-ranked solutions of DCASE Challenge in recent years.
- Abstract(参考訳): 音響シーンの録音は様々な都市から収集されることが多い。
既存の音響シーン分類(ASC)アプローチは、都市全体にわたる一般的な音響シーンパターンの同定に重点を置いて、一般化を強化する。
しかし,都市特有の環境・文化要因がもたらす潜在的な音響的差異は見過ごされている。
本稿では, 都市特有の音響特性が騒音やバイアスとして扱われるのではなく, ASCタスクにとって有益であると仮定する。
そこで我々は,都市の特徴を活用してASCを改善する新しいフレームワークであるCity2Sceneを提案する。
都市情報を捨てたり抑制したりする従来の手法とは異なり、City2Sceneは、事前訓練された都市分類モデルから知識蒸留を用いたシーン分類モデルに都市固有の知識を移行する。
我々は,DCASE Challenge Task 1の3つのデータセットについてCity2Sceneを評価する。
都市の特徴がシーンの分類に有用な情報を提供することを示す実験結果が得られた。
都市固有の知識を蒸留することで、City2Sceneは、様々な軽量CNNバックボーンの精度を効果的に向上させ、近年のDCASEチャレンジの上位のソリューションと競合する性能を実現している。
関連論文リスト
- Streetscape Analysis with Generative AI (SAGAI): Vision-Language Assessment and Mapping of Urban Scenes [0.9208007322096533]
本稿では,SAGAI:Streetscape Analysis with Generative Artificial Intelligenceを紹介する。
これは、オープンアクセスデータと視覚言語モデルを使用して、街路レベルの都市シーンを評価するためのモジュラーワークフローである。
タスク固有のトレーニングやプロプライエタリなソフトウェア依存関係なしで動作します。
論文 参考訳(メタデータ) (2025-04-23T09:08:06Z) - EMPLACE: Self-Supervised Urban Scene Change Detection [6.250018240133604]
都市景観変化検出(Urban Scene Change Detection, USCD)は、コンピュータビジョンによる街路景観の変化を捉えることを目的としている。
我々は、視覚変換器を訓練する自己監督方法EMPLACEとともに、1.1M以上の画像で最大のUSCDデータセットであるAC-1Mを紹介した。
アムステルダムのケーススタディでは、市内の小さな変化と大きな変化の両方を検知でき、EMPLACEによって発見された変化は、サイズによって住宅価格と相関していることを示す。
論文 参考訳(メタデータ) (2025-03-22T10:20:43Z) - Feed-Forward Bullet-Time Reconstruction of Dynamic Scenes from Monocular Videos [101.48581851337703]
動的シーンのリアルタイム再構成と新しいビュー合成のための,モーション対応フィードフォワードモデルであるBTimerを提案する。
提案手法は,すべてのコンテキストフレームから情報を集約することにより,所定の目標("bullet')タイムスタンプにおける3次元ガウススティング表現の全体像を再構成する。
カジュアルなモノクロのダイナミックビデオが与えられた後、BTimerは150ms以内の弾道時間シーンを再構築し、静的および動的両方のシーンデータセットで最先端のパフォーマンスに到達した。
論文 参考訳(メタデータ) (2024-12-04T18:15:06Z) - COHO: Context-Sensitive City-Scale Hierarchical Urban Layout Generation [1.5745692520785073]
都市規模の都市レイアウト生成のための新しいグラフベースのマスク付きオートエンコーダ(GMAE)を提案する。
この方法は、属性付き建物、都市ブロック、コミュニティ、都市を統一的なグラフ構造に符号化する。
提案手法は,米国330都市における異質な都市スタイルにおける良好な現実性,意味的整合性,正当性を実現する。
論文 参考訳(メタデータ) (2024-07-16T00:49:53Z) - CityCraft: A Real Crafter for 3D City Generation [25.7885801163556]
CityCraftは、都市シーン生成の多様性と品質の両方を強化するために設計された革新的なフレームワークである。
提案手法は,まず拡散変圧器(DiT)モデルを用いて,多種かつ制御可能な2次元都市レイアウトを生成する。
生成したレイアウトと都市計画に基づいて,Blenderとアセット検索モジュールを用いて,正確なアセット配置とシーン構築を行う。
論文 参考訳(メタデータ) (2024-06-07T14:49:00Z) - Urban Scene Diffusion through Semantic Occupancy Map [49.20779809250597]
UrbanDiffusionは、Bird's-Eye View (BEV)マップに条件付き3次元拡散モデルである。
我々のモデルは,潜在空間内のシーンレベルの構造の分布を学習する。
実世界の運転データセットをトレーニングした後、我々のモデルは多様な都市シーンを生成することができる。
論文 参考訳(メタデータ) (2024-03-18T11:54:35Z) - Cross-City Matters: A Multimodal Remote Sensing Benchmark Dataset for
Cross-City Semantic Segmentation using High-Resolution Domain Adaptation
Networks [82.82866901799565]
我々は,都市間セマンティックセマンティックセグメンテーションタスクの研究を目的とした,新しいマルチモーダルリモートセンシングベンチマークデータセット(ハイパースペクトル,マルチスペクトル,SARを含む)を構築した。
単一都市に留まらず,多都市環境からAIモデルの一般化能力を促進するため,高解像度なドメイン適応ネットワークであるHighDANを提案する。
高DANは, 並列高分解能融合方式で, 都市景観の空間的トポロジカルな構造を良好に維持することができる。
論文 参考訳(メタデータ) (2023-09-26T23:55:39Z) - Robust, General, and Low Complexity Acoustic Scene Classification
Systems and An Effective Visualization for Presenting a Sound Scene Context [53.80051967863102]
音響シーン分類(ASC)の包括的解析について述べる。
ASCベースラインと呼ばれる,創発的かつ低フットプリントのASCモデルを提案する。
次に、新しいディープニューラルネットワークアーキテクチャを提案することにより、ASCベースラインを改善する。
論文 参考訳(メタデータ) (2022-10-16T19:07:21Z) - Robust Feature Learning on Long-Duration Sounds for Acoustic Scene
Classification [54.57150493905063]
音響シーン分類(ASC)は、所定の音声信号が記録されるシーンの種類(環境)を特定することを目的としている。
我々は,CNNを訓練するための頑健な特徴学習(RFL)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-11T03:33:05Z) - Cross-Task Transfer for Geotagged Audiovisual Aerial Scene Recognition [61.54648991466747]
映像と音を入力として用いた視覚的空中シーン認識タスクについて検討する。
航空シーン認識のための音声情報を活用する利点を示す。
論文 参考訳(メタデータ) (2020-05-18T04:14:16Z) - Indexical Cities: Articulating Personal Models of Urban Preference with
Geotagged Data [0.0]
本研究は,都市空間における個人の嗜好を特徴付け,特定の観測者に対する未知の好ましくない場所のスペクトルを予測する。
多くの都市認識研究とは異なり、我々の意図は都市品質の客観的な尺度を提供する手段ではなく、都市や都市についての個人的な見解を表現することである。
論文 参考訳(メタデータ) (2020-01-23T11:00:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。