論文の概要: Transformation of audio embeddings into interpretable, concept-based representations
- arxiv url: http://arxiv.org/abs/2504.14076v1
- Date: Fri, 18 Apr 2025 21:00:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 05:23:01.630279
- Title: Transformation of audio embeddings into interpretable, concept-based representations
- Title(参考訳): 音声埋め込みの解釈可能な概念ベース表現への変換
- Authors: Alice Zhang, Edison Thomaz, Lie Lu,
- Abstract要約: 音声ニューラルネットワークから抽出した音声埋め込みのセマンティック解釈可能性について検討する。
我々はCLAP埋め込みを意味論的解釈性を備えた概念ベースでスパースな表現に変換する。
音声埋め込みの概念に基づく解釈可能性のための3つの音声固有語彙を公表する。
- 参考スコア(独自算出の注目度): 1.5293427903448022
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Advancements in audio neural networks have established state-of-the-art results on downstream audio tasks. However, the black-box structure of these models makes it difficult to interpret the information encoded in their internal audio representations. In this work, we explore the semantic interpretability of audio embeddings extracted from these neural networks by leveraging CLAP, a contrastive learning model that brings audio and text into a shared embedding space. We implement a post-hoc method to transform CLAP embeddings into concept-based, sparse representations with semantic interpretability. Qualitative and quantitative evaluations show that the concept-based representations outperform or match the performance of original audio embeddings on downstream tasks while providing interpretability. Additionally, we demonstrate that fine-tuning the concept-based representations can further improve their performance on downstream tasks. Lastly, we publish three audio-specific vocabularies for concept-based interpretability of audio embeddings.
- Abstract(参考訳): オーディオニューラルネットワークの進歩は、下流のオーディオタスクに関する最先端の結果を確立している。
しかし、これらのモデルのブラックボックス構造は、内部の音声表現に符号化された情報を解釈することが困難である。
本研究では,これらのニューラルネットワークから抽出した音声埋め込みのセマンティック解釈可能性について,音声とテキストを共有埋め込み空間に導入するコントラスト学習モデルであるCLAPを用いて検討する。
CLAP埋め込みを意味論的解釈性のある概念ベースでスパース表現に変換するポストホック手法を実装した。
定性的および定量的評価により、概念に基づく表現は、ダウンストリームタスクにおける元のオーディオ埋め込みの性能に優れ、解釈可能性を提供しながら一致していることが示された。
さらに,概念に基づく表現を微調整することで,下流タスクの性能をさらに向上させることができることを示す。
最後に、音声埋め込みの概念に基づく解釈可能性のための3つの音声固有語彙を公表する。
関連論文リスト
- Focal Modulation Networks for Interpretable Sound Classification [14.360545133618267]
本稿では、最近提案された注目なし焦点変調ネットワーク(FocalNets)を利用して、音声領域における解釈可能性設計の問題に対処する。
本研究では,FocalNetsを環境音の分類タスクに適用し,その解釈可能性特性をESC-50データセット上で評価する。
本手法は、精度と解釈可能性の両方において、同様の大きさの視覚変換器より優れる。
論文 参考訳(メタデータ) (2024-02-05T06:20:52Z) - Self-supervised Fine-tuning for Improved Content Representations by
Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。
Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文 参考訳(メタデータ) (2023-05-18T15:59:36Z) - Tackling Interpretability in Audio Classification Networks with
Non-negative Matrix Factorization [2.423660247459463]
本稿では,音声処理ネットワークの解釈可能性に関する2つの主要な課題に対処する。
ポストホックな解釈では、エンドユーザーにも聴ける高レベルオーディオオブジェクトの観点から、ネットワークの判断を解釈することを目的としている。
非負行列分解(NMF)を取り入れた新しいインタプリタ設計を提案する。
論文 参考訳(メタデータ) (2023-05-11T20:50:51Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Content-Context Factorized Representations for Automated Speech
Recognition [12.618527387900079]
本稿では、教師なしのエンコーダに依存しない音声エンコーダ表現を明示的なコンテンツエンコーダ表現と刺激的なコンテキストエンコーダ表現に分解する手法を提案する。
我々は,標準的なASRベンチマークの性能向上に加えて,実環境と人工ノイズの両方のASRシナリオの性能向上を実証した。
論文 参考訳(メタデータ) (2022-05-19T21:34:40Z) - Listen to Interpret: Post-hoc Interpretability for Audio Networks with
NMF [2.423660247459463]
非負行列分解(NMF)を取り入れた新しいインタプリタ設計を提案する。
提案手法により,ネットワークの判断に最も関係のある入力信号の一部を明示的に拡張する直感的な音声ベースの解釈を生成することができる。
実世界のマルチラベル分類タスクを含む,一般的なベンチマークにおいて,本手法の適用性を示す。
論文 参考訳(メタデータ) (2022-02-23T13:00:55Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z) - Disentangled Speech Embeddings using Cross-modal Self-supervision [119.94362407747437]
本研究では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。
我々は,(1)両表現に共通する低レベルの特徴を共有する2ストリームアーキテクチャを構築し,(2)これらの要因を明示的に解消する自然なメカニズムを提供する。
論文 参考訳(メタデータ) (2020-02-20T14:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。