論文の概要: City2Scene: Improving Acoustic Scene Classification with City Features
- arxiv url: http://arxiv.org/abs/2503.16862v1
- Date: Fri, 21 Mar 2025 05:24:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:55:41.469297
- Title: City2Scene: Improving Acoustic Scene Classification with City Features
- Title(参考訳): City2Scene: 都市の特徴を考慮した音響シーン分類の改善
- Authors: Yiqiang Cai, Yizhou Tan, Peihong Zhang, Yuxuan Liu, Shengchen Li, Xi Shao, Mark D. Plumbley,
- Abstract要約: City2Sceneは、都市の特徴を活用して音響シーンの分類を改善する新しいフレームワークである。
都市固有の知識を蒸留することにより、City2Sceneは様々な最先端のASCバックボーンモデルの精度を効果的に向上させる。
- 参考スコア(独自算出の注目度): 16.21386173405063
- License:
- Abstract: Acoustic scene recordings are often collected from a diverse range of cities. Most existing acoustic scene classification (ASC) approaches focus on identifying common acoustic scene patterns across cities to enhance generalization. In contrast, we hypothesize that city-specific environmental and cultural differences in acoustic features are beneficial for the ASC task. In this paper, we introduce City2Scene, a novel framework that leverages city features to improve ASC. City2Scene transfers the city-specific knowledge from city classification models to a scene classification model using knowledge distillation. We evaluated City2Scene on the DCASE Challenge Task 1 datasets, where each audio clip is annotated with both scene and city labels. Experimental results demonstrate that city features provide valuable information for classifying scenes. By distilling the city-specific knowledge, City2Scene effectively improves accuracy for various state-of-the-art ASC backbone models, including both CNNs and Transformers.
- Abstract(参考訳): 音響シーンの録音は様々な都市から収集されることが多い。
既存の音響シーン分類(ASC)アプローチは、都市全体にわたる一般的な音響シーンパターンの同定に重点を置いて、一般化を強化する。
対照的に, 都市特有の環境・文化の音響特性の違いは, ASCタスクにとって有益であると仮定する。
本稿では,都市の特徴を活用してASCを改善する新しいフレームワークであるCity2Sceneを紹介する。
City2Sceneは、都市固有の知識を都市分類モデルから知識蒸留を用いたシーン分類モデルに転送する。
我々はDCASE Challenge Task 1データセットでCity2Sceneを評価し,各オーディオクリップにシーンラベルと都市ラベルをアノテートした。
都市の特徴がシーンの分類に有用な情報を提供することを示す実験結果が得られた。
都市固有の知識を蒸留することで、CNNとトランスフォーマーを含む様々な最先端のASCバックボーンモデルの精度を効果的に向上する。
関連論文リスト
- Feed-Forward Bullet-Time Reconstruction of Dynamic Scenes from Monocular Videos [101.48581851337703]
動的シーンのリアルタイム再構成と新しいビュー合成のための,モーション対応フィードフォワードモデルであるBTimerを提案する。
提案手法は,すべてのコンテキストフレームから情報を集約することにより,所定の目標("bullet')タイムスタンプにおける3次元ガウススティング表現の全体像を再構成する。
カジュアルなモノクロのダイナミックビデオが与えられた後、BTimerは150ms以内の弾道時間シーンを再構築し、静的および動的両方のシーンデータセットで最先端のパフォーマンスに到達した。
論文 参考訳(メタデータ) (2024-12-04T18:15:06Z) - COHO: Context-Sensitive City-Scale Hierarchical Urban Layout Generation [1.5745692520785073]
都市規模の都市レイアウト生成のための新しいグラフベースのマスク付きオートエンコーダ(GMAE)を提案する。
この方法は、属性付き建物、都市ブロック、コミュニティ、都市を統一的なグラフ構造に符号化する。
提案手法は,米国330都市における異質な都市スタイルにおける良好な現実性,意味的整合性,正当性を実現する。
論文 参考訳(メタデータ) (2024-07-16T00:49:53Z) - CityCraft: A Real Crafter for 3D City Generation [25.7885801163556]
CityCraftは、都市シーン生成の多様性と品質の両方を強化するために設計された革新的なフレームワークである。
提案手法は,まず拡散変圧器(DiT)モデルを用いて,多種かつ制御可能な2次元都市レイアウトを生成する。
生成したレイアウトと都市計画に基づいて,Blenderとアセット検索モジュールを用いて,正確なアセット配置とシーン構築を行う。
論文 参考訳(メタデータ) (2024-06-07T14:49:00Z) - Urban Scene Diffusion through Semantic Occupancy Map [49.20779809250597]
UrbanDiffusionは、Bird's-Eye View (BEV)マップに条件付き3次元拡散モデルである。
我々のモデルは,潜在空間内のシーンレベルの構造の分布を学習する。
実世界の運転データセットをトレーニングした後、我々のモデルは多様な都市シーンを生成することができる。
論文 参考訳(メタデータ) (2024-03-18T11:54:35Z) - Cross-City Matters: A Multimodal Remote Sensing Benchmark Dataset for
Cross-City Semantic Segmentation using High-Resolution Domain Adaptation
Networks [82.82866901799565]
我々は,都市間セマンティックセマンティックセグメンテーションタスクの研究を目的とした,新しいマルチモーダルリモートセンシングベンチマークデータセット(ハイパースペクトル,マルチスペクトル,SARを含む)を構築した。
単一都市に留まらず,多都市環境からAIモデルの一般化能力を促進するため,高解像度なドメイン適応ネットワークであるHighDANを提案する。
高DANは, 並列高分解能融合方式で, 都市景観の空間的トポロジカルな構造を良好に維持することができる。
論文 参考訳(メタデータ) (2023-09-26T23:55:39Z) - Robust, General, and Low Complexity Acoustic Scene Classification
Systems and An Effective Visualization for Presenting a Sound Scene Context [53.80051967863102]
音響シーン分類(ASC)の包括的解析について述べる。
ASCベースラインと呼ばれる,創発的かつ低フットプリントのASCモデルを提案する。
次に、新しいディープニューラルネットワークアーキテクチャを提案することにより、ASCベースラインを改善する。
論文 参考訳(メタデータ) (2022-10-16T19:07:21Z) - Robust Feature Learning on Long-Duration Sounds for Acoustic Scene
Classification [54.57150493905063]
音響シーン分類(ASC)は、所定の音声信号が記録されるシーンの種類(環境)を特定することを目的としている。
我々は,CNNを訓練するための頑健な特徴学習(RFL)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-11T03:33:05Z) - Cross-Task Transfer for Geotagged Audiovisual Aerial Scene Recognition [61.54648991466747]
映像と音を入力として用いた視覚的空中シーン認識タスクについて検討する。
航空シーン認識のための音声情報を活用する利点を示す。
論文 参考訳(メタデータ) (2020-05-18T04:14:16Z) - Indexical Cities: Articulating Personal Models of Urban Preference with
Geotagged Data [0.0]
本研究は,都市空間における個人の嗜好を特徴付け,特定の観測者に対する未知の好ましくない場所のスペクトルを予測する。
多くの都市認識研究とは異なり、我々の意図は都市品質の客観的な尺度を提供する手段ではなく、都市や都市についての個人的な見解を表現することである。
論文 参考訳(メタデータ) (2020-01-23T11:00:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。