論文の概要: ATGNN: Audio Tagging Graph Neural Network
- arxiv url: http://arxiv.org/abs/2311.01526v1
- Date: Thu, 2 Nov 2023 18:19:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 16:15:19.088823
- Title: ATGNN: Audio Tagging Graph Neural Network
- Title(参考訳): atgnn:音声タグ付きグラフニューラルネットワーク
- Authors: Shubhr Singh, Christian J. Steinmetz, Emmanouil Benetos, Huy Phan, Dan
Stowell
- Abstract要約: ATGNNは学習可能なクラス埋め込みとスペクトログラム領域間の意味関係をマッピングするグラフニューラルネットワークアーキテクチャである。
我々は2つのオーディオタグタスクでATGNNを評価し、FSD50Kデータセットで0.585 mAP、AudioSetバランスデータセットで0.335 mAPを達成する。
- 参考スコア(独自算出の注目度): 25.78859233831268
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning models such as CNNs and Transformers have achieved impressive
performance for end-to-end audio tagging. Recent works have shown that despite
stacking multiple layers, the receptive field of CNNs remains severely limited.
Transformers on the other hand are able to map global context through
self-attention, but treat the spectrogram as a sequence of patches which is not
flexible enough to capture irregular audio objects. In this work, we treat the
spectrogram in a more flexible way by considering it as graph structure and
process it with a novel graph neural architecture called ATGNN. ATGNN not only
combines the capability of CNNs with the global information sharing ability of
Graph Neural Networks, but also maps semantic relationships between learnable
class embeddings and corresponding spectrogram regions. We evaluate ATGNN on
two audio tagging tasks, where it achieves 0.585 mAP on the FSD50K dataset and
0.335 mAP on the AudioSet-balanced dataset, achieving comparable results to
Transformer based models with significantly lower number of learnable
parameters.
- Abstract(参考訳): CNNやTransformerといったディープラーニングモデルは、エンドツーエンドのオーディオタグ付けに優れたパフォーマンスを実現している。
最近の研究によると、複数の層が積み重ねられているにもかかわらず、CNNの受容野は依然として著しく制限されている。
一方、トランスフォーマーは、自己アテンションを通してグローバルなコンテキストをマッピングできるが、スペクトログラムを不規則なオーディオオブジェクトをキャプチャするのに十分な柔軟性のないパッチのシーケンスとして扱う。
本研究では,この分光図をグラフ構造として考慮し,ATGNNと呼ばれる新しいグラフニューラルアーキテクチャで処理することにより,よりフレキシブルな方法で処理する。
ATGNNは、CNNの能力とグラフニューラルネットワークのグローバル情報共有能力を組み合わせるだけでなく、学習可能なクラス埋め込みと対応する分光図領域間の意味関係をマッピングする。
そこではFSD50Kデータセットで0.585 mAP,AudioSetバランスデータセットで0.335 mAPを達成し,学習可能なパラメータを著しく少なくしたTransformerベースモデルに匹敵する結果を得た。
関連論文リスト
- Automatic speech recognition for the Nepali language using CNN, bidirectional LSTM and ResNet [0.0]
本稿ではネパール語音声をテキストに書き起こす自動音声認識(ASR)のためのエンドツーエンドディープラーニングモデルを提案する。
モデルはOpenSLR(audio, text)データセットでトレーニングされ、テストされた。
文字誤り率(CER)は17.06パーセントに達している。
論文 参考訳(メタデータ) (2024-06-25T12:14:01Z) - CNN2GNN: How to Bridge CNN with GNN [59.42117676779735]
蒸留によりCNNとGNNを統一する新しいCNN2GNNフレームワークを提案する。
Mini-ImageNetにおける蒸留ブースターの2層GNNの性能は、ResNet152のような数十層を含むCNNよりもはるかに高い。
論文 参考訳(メタデータ) (2024-04-23T08:19:08Z) - BLIS-Net: Classifying and Analyzing Signals on Graphs [20.345611294709244]
グラフニューラルネットワーク(GNN)は、ノード分類やグラフ分類といったタスクのための強力なツールとして登場した。
我々は以前に導入された幾何散乱変換に基づいて構築された新しいGNNであるBLIS-Net(Bi-Lipschitz Scattering Net)を紹介する。
BLIS-Netは,交通流とfMRIデータに基づいて,合成データと実世界のデータの両方において優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-10-26T17:03:14Z) - T-GAE: Transferable Graph Autoencoder for Network Alignment [79.89704126746204]
T-GAEはグラフオートエンコーダフレームワークで、GNNの転送性と安定性を活用して、再トレーニングなしに効率的なネットワークアライメントを実現する。
実験の結果、T-GAEは最先端の最適化手法と最高のGNN手法を最大38.7%、50.8%で上回っていることがわかった。
論文 参考訳(メタデータ) (2023-10-05T02:58:29Z) - Graph Ladling: Shockingly Simple Parallel GNN Training without
Intermediate Communication [100.51884192970499]
GNNは、グラフを学習するニューラルネットワークの強力なファミリーである。
GNNのスケーリングは、肥大化または拡大によって、不健康な勾配、過度なスムースメント、情報のスカッシングといった問題に悩まされる。
本稿では,現在のGNNの深層化や拡張ではなく,GNNに適したモデルスープをデータ中心の視点で表現することを提案する。
論文 参考訳(メタデータ) (2023-06-18T03:33:46Z) - Efficient Large-scale Audio Tagging via Transformer-to-CNN Knowledge
Distillation [6.617487928813374]
高性能だが複雑な変換器からのオフライン知識蒸留(KD)に基づく効率的なCNNの訓練手順を提案する。
我々は、低複雑さモデルからAudioSetの.483 mAPの新たな最先端パフォーマンスまで、さまざまな複雑さレベルのモデルを提供しています。
論文 参考訳(メタデータ) (2022-11-09T09:58:22Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Receptive Field Regularization Techniques for Audio Classification and
Tagging with Deep Convolutional Neural Networks [7.9495796547433395]
CNNの受容場(RF)のチューニングは,その一般化に不可欠であることを示す。
我々は,CNNのRFを制御し,結果のアーキテクチャを体系的にテストする,いくつかの系統的なアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-26T08:36:29Z) - Graph Neural Networks with Adaptive Frequency Response Filter [55.626174910206046]
適応周波数応答フィルタを用いたグラフニューラルネットワークフレームワークAdaGNNを開発した。
提案手法の有効性を,様々なベンチマークデータセット上で実証的に検証した。
論文 参考訳(メタデータ) (2021-04-26T19:31:21Z) - AST: Audio Spectrogram Transformer [21.46018186487818]
オーディオ分類のための最初の畳み込みのない、純粋に注意に基づくモデルであるAudio Spectrogram Transformer(AST)を紹介します。
ASTはAudioSetの0.485 mAP、ESC-50の95.6%、音声コマンドV2の98.1%の精度で新しい最先端の結果を達成している。
論文 参考訳(メタデータ) (2021-04-05T05:26:29Z) - A Unified View on Graph Neural Networks as Graph Signal Denoising [49.980783124401555]
グラフニューラルネットワーク(GNN)は,グラフ構造化データの学習表現において顕著に普及している。
本研究では,代表的GNNモデル群における集約過程を,グラフ記述問題の解法とみなすことができることを数学的に確立する。
UGNNから派生した新しいGNNモデルADA-UGNNをインスタンス化し、ノード間の適応的滑らかさでグラフを処理する。
論文 参考訳(メタデータ) (2020-10-05T04:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。