論文の概要: SemanticAC: Semantics-Assisted Framework for Audio Classification
- arxiv url: http://arxiv.org/abs/2302.05940v1
- Date: Sun, 12 Feb 2023 15:30:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 17:38:45.701648
- Title: SemanticAC: Semantics-Assisted Framework for Audio Classification
- Title(参考訳): SemanticAC: 音声分類のためのセマンティック支援フレームワーク
- Authors: Yicheng Xiao and Yue Ma and Shuyan Li and Hantao Zhou and Ran Liao and
Xiu Li
- Abstract要約: 音声分類のためのセマンティックACを提案する。
我々は、ラベルから豊富な意味を抽出し、音声信号とそのラベル間の意味的一貫性を最適化するために、言語モデルを用いる。
提案手法は、比較音声分類法よりも一貫して優れている。
- 参考スコア(独自算出の注目度): 13.622344835167997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose SemanticAC, a semantics-assisted framework for
Audio Classification to better leverage the semantic information. Unlike
conventional audio classification methods that treat class labels as discrete
vectors, we employ a language model to extract abundant semantics from labels
and optimize the semantic consistency between audio signals and their labels.
We verify that simple textual information from labels and advanced pretraining
models enable more abundant semantic supervision for better performance.
Specifically, we design a text encoder to capture the semantic information from
the text extension of labels. Then we map the audio signals to align with the
semantics of corresponding class labels via an audio encoder and a similarity
calculation module so as to enforce the semantic consistency. Extensive
experiments on two audio datasets, ESC-50 and US8K demonstrate that our
proposed method consistently outperforms the compared audio classification
methods.
- Abstract(参考訳): 本稿では,セマンティックACを提案する。セマンティックACは,セマンティック情報を活用するためのセマンティック分類支援フレームワークである。
クラスラベルを離散ベクトルとして扱う従来の音声分類法とは異なり、ラベルから豊富な意味を抽出し、音声信号とそのラベル間の意味的一貫性を最適化するために言語モデルを用いる。
ラベルからの単純なテキスト情報と高度な事前学習モデルにより、より豊富な意味的監督が可能となり、パフォーマンスが向上することを検証した。
具体的には,ラベルのテキスト拡張から意味情報をキャプチャするために,テキストエンコーダを設計する。
次に、オーディオエンコーダと類似度算出モジュールを介して、対応するクラスラベルのセマンティクスと整合するようにオーディオ信号をマッピングし、セマンティクス一貫性を強制する。
ESC-50とUS8Kの2つのオーディオデータセットに対する大規模な実験により,提案手法が比較した音声分類法より一貫して優れていることが示された。
関連論文リスト
- Semi-Supervised Cognitive State Classification from Speech with Multi-View Pseudo-Labeling [21.82879779173242]
ラベル付きデータの欠如は、音声分類タスクにおいて共通の課題である。
そこで我々は,新しい多視点擬似ラベル手法を導入したセミスーパーバイザードラーニング(SSL)フレームワークを提案する。
感情認識と認知症検出タスクにおけるSSLフレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-09-25T13:51:19Z) - Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。
LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。
LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文 参考訳(メタデータ) (2024-07-11T01:57:08Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Description-Enhanced Label Embedding Contrastive Learning for Text
Classification [65.01077813330559]
モデル学習プロセスにおける自己監督型学習(SSL)と新しい自己監督型関係関係(R2)分類タスクの設計
テキスト分類とR2分類を最適化対象として扱うテキスト分類のための関係学習ネットワーク(R2-Net)の関係について検討する。
ラベルセマンティックラーニングのためのマルチアスペクト記述を得るためのWordNetからの外部知識。
論文 参考訳(メタデータ) (2023-06-15T02:19:34Z) - Unsupervised Improvement of Audio-Text Cross-Modal Representations [19.960695758478153]
本研究では、教師なしのテキストと音声を用いて、そのような表現の学習フレームワークを改善するための教師なしのアプローチについて研究する。
ドメイン固有のキュレーションをソフトラベル付きコントラスト損失と併用することで、ゼロショット分類性能において大幅な改善が得られることを示す。
論文 参考訳(メタデータ) (2023-05-03T02:30:46Z) - Exploring Structured Semantic Prior for Multi Label Recognition with
Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。
最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。
我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文 参考訳(メタデータ) (2023-03-23T12:39:20Z) - Introducing Semantics into Speech Encoders [91.37001512418111]
本研究では,大言語モデルからの意味情報をラベル付き音声書き起こしのない自己教師付き音声エンコーダに組み込む教師なしの手法を提案する。
提案手法は,100時間以上のラベル付き音声書き起こしにおける教師あり手法と類似した性能を実現する。
論文 参考訳(メタデータ) (2022-11-15T18:44:28Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Zero-Shot Recognition through Image-Guided Semantic Classification [9.291055558504588]
ゼロショット学習(ZSL)のための新しい埋め込み型フレームワークを提案する。
複数ラベル分類のための2値関係法により,画像と意味分類器のマッピングを逆学習する手法を提案する。
IGSCは概念的には単純であり、分類のための既存のディープアーキテクチャをわずかに拡張することで実現可能である。
論文 参考訳(メタデータ) (2020-07-23T06:22:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。