論文の概要: LHGNN: Local-Higher Order Graph Neural Networks For Audio Classification and Tagging
- arxiv url: http://arxiv.org/abs/2501.03464v2
- Date: Wed, 29 Jan 2025 12:22:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-30 15:51:08.279083
- Title: LHGNN: Local-Higher Order Graph Neural Networks For Audio Classification and Tagging
- Title(参考訳): LHGNN: 音声分類とタグ付けのための局所高次グラフニューラルネットワーク
- Authors: Shubhr Singh, Emmanouil Benetos, Huy Phan, Dan Stowell,
- Abstract要約: この研究は、特徴理解を強化するグラフベースモデルであるLocal-Higher Order Graph Neural Network (LHGNN)を紹介する。
公開されている3つのオーディオデータセットに対するモデルの評価は、Transformerベースのモデルをすべてのベンチマークで上回っていることを示している。
- 参考スコア(独自算出の注目度): 23.464493621300242
- License:
- Abstract: Transformers have set new benchmarks in audio processing tasks, leveraging self-attention mechanisms to capture complex patterns and dependencies within audio data. However, their focus on pairwise interactions limits their ability to process the higher-order relations essential for identifying distinct audio objects. To address this limitation, this work introduces the Local- Higher Order Graph Neural Network (LHGNN), a graph based model that enhances feature understanding by integrating local neighbourhood information with higher-order data from Fuzzy C-Means clusters, thereby capturing a broader spectrum of audio relationships. Evaluation of the model on three publicly available audio datasets shows that it outperforms Transformer-based models across all benchmarks while operating with substantially fewer parameters. Moreover, LHGNN demonstrates a distinct advantage in scenarios lacking ImageNet pretraining, establishing its effectiveness and efficiency in environments where extensive pretraining data is unavailable.
- Abstract(参考訳): トランスフォーマーは、オーディオデータ内の複雑なパターンや依存関係をキャプチャする自己認識メカニズムを活用する、オーディオ処理タスクに新たなベンチマークを設定した。
しかし、ペアワイズインタラクションに焦点を合わせることで、異なるオーディオオブジェクトを識別するのに不可欠な高次関係を処理できる能力が制限される。
この制限に対処するために、Fizzy C-Meansクラスタの高次データと局所近傍情報を統合することにより特徴理解を強化するグラフベースモデルであるLocal-Higher Order Graph Neural Network (LHGNN)を導入する。
公開されている3つのオーディオデータセットに対するモデルの評価は、Transformerベースのモデルよりもはるかに少ないパラメータで操作しながら、すべてのベンチマークでパフォーマンスが向上していることを示している。
さらに、LHGNNは、ImageNet事前トレーニングを欠いたシナリオにおいて、広範な事前トレーニングデータが利用できない環境で、その有効性と効率性を確立している。
関連論文リスト
- Dual-Frequency Filtering Self-aware Graph Neural Networks for Homophilic and Heterophilic Graphs [60.82508765185161]
我々は、Dual-Frequency Filtering Self-Aware Graph Neural Networks (DFGNN)を提案する。
DFGNNは低域通過フィルタと高域通過フィルタを統合し、滑らかで詳細な位相的特徴を抽出する。
フィルター比を動的に調整し、ホモフィルグラフとヘテロフィルグラフの両方に対応する。
論文 参考訳(メタデータ) (2024-11-18T04:57:05Z) - GraFPrint: A GNN-Based Approach for Audio Identification [11.71702857714935]
GraFPrintは、グラフニューラルネットワーク(GNN)の構造学習機能を活用して、堅牢なオーディオ指紋を作成するオーディオ識別フレームワークである。
GraFPrintは、さまざまなレベルの粒度の大規模データセット上での優れたパフォーマンスを示し、軽量かつスケーラブルであることを証明している。
論文 参考訳(メタデータ) (2024-10-14T18:20:09Z) - Noise-Resilient Unsupervised Graph Representation Learning via Multi-Hop Feature Quality Estimation [53.91958614666386]
グラフニューラルネットワーク(GNN)に基づく教師なしグラフ表現学習(UGRL)
マルチホップ特徴量推定(MQE)に基づく新しいUGRL法を提案する。
論文 参考訳(メタデータ) (2024-07-29T12:24:28Z) - Hybrid Convolutional and Attention Network for Hyperspectral Image Denoising [54.110544509099526]
ハイパースペクトル画像(HSI)は、ハイパースペクトルデータの効果的な解析と解釈に重要である。
ハイブリット・コンボリューション・アテンション・ネットワーク(HCANet)を提案する。
主流HSIデータセットに対する実験結果は,提案したHCANetの合理性と有効性を示している。
論文 参考訳(メタデータ) (2024-03-15T07:18:43Z) - ATGNN: Audio Tagging Graph Neural Network [25.78859233831268]
ATGNNは学習可能なクラス埋め込みとスペクトログラム領域間の意味関係をマッピングするグラフニューラルネットワークアーキテクチャである。
我々は2つのオーディオタグタスクでATGNNを評価し、FSD50Kデータセットで0.585 mAP、AudioSetバランスデータセットで0.335 mAPを達成する。
論文 参考訳(メタデータ) (2023-11-02T18:19:26Z) - ASiT: Local-Global Audio Spectrogram vIsion Transformer for Event
Classification [42.95038619688867]
ASiTは、グループマスク付きモデル学習と自己蒸留を用いて、局所的およびグローバルな文脈情報をキャプチャする、新しい自己教師型学習フレームワークである。
我々は、音声イベント分類、キーワードスポッティング、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2022-11-23T18:21:09Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - A Multimodal Canonical-Correlated Graph Neural Network for
Energy-Efficient Speech Enhancement [4.395837214164745]
本稿では,エネルギー効率の高いAV音声強調のための新しいマルチモーダル自己教師型アーキテクチャを提案する。
グラフニューラルネットワークと標準相関解析(CCA-GNN)を統合する
ベンチマークのChiME3データセットを用いて行った実験により、提案したフレームベースのAV CCA-GNNは、時間的文脈におけるより良い特徴学習を強化していることがわかった。
論文 参考訳(メタデータ) (2022-02-09T15:47:07Z) - Learning Spatial-Temporal Graphs for Active Speaker Detection [26.45877018368872]
SPELLは、長距離マルチモーダルグラフを学習し、オーディオと視覚データ間のモーダル関係を符号化するフレームワークである。
まず、各ノードが1人に対応するように、ビデオからグラフを構築する。
グラフに基づく表現の学習は,その空間的・時間的構造から,全体の性能を著しく向上させることを示した。
論文 参考訳(メタデータ) (2021-12-02T18:29:07Z) - Local Augmentation for Graph Neural Networks [78.48812244668017]
本稿では,局所的な部分グラフ構造によりノード特性を向上する局所拡張を提案する。
局所的な拡張に基づいて、プラグイン・アンド・プレイ方式で任意のGNNモデルに適用可能な、LA-GNNという新しいフレームワークをさらに設計する。
論文 参考訳(メタデータ) (2021-09-08T18:10:08Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。