論文の概要: AND: Audio Network Dissection for Interpreting Deep Acoustic Models
- arxiv url: http://arxiv.org/abs/2406.16990v2
- Date: Wed, 26 Jun 2024 17:36:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 17:56:11.793057
- Title: AND: Audio Network Dissection for Interpreting Deep Acoustic Models
- Title(参考訳): 深部音響モデルの解釈のための音響ネットワーク分割
- Authors: Tung-Yu Wu, Yu-Xiang Lin, Tsui-Wei Weng,
- Abstract要約: $textitAND$は、高応答性オーディオに基づいて、音響ニューロンの自然言語説明を自動的に確立するフレームワークである。
さらに、オーディオマシンのアンラーニングに$textitAND$を使用する可能性を示す。
- 参考スコア(独自算出の注目度): 13.046230333961782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neuron-level interpretations aim to explain network behaviors and properties by investigating neurons responsive to specific perceptual or structural input patterns. Although there is emerging work in the vision and language domains, none is explored for acoustic models. To bridge the gap, we introduce $\textit{AND}$, the first $\textbf{A}$udio $\textbf{N}$etwork $\textbf{D}$issection framework that automatically establishes natural language explanations of acoustic neurons based on highly-responsive audio. $\textit{AND}$ features the use of LLMs to summarize mutual acoustic features and identities among audio. Extensive experiments are conducted to verify $\textit{AND}$'s precise and informative descriptions. In addition, we demonstrate a potential use of $\textit{AND}$ for audio machine unlearning by conducting concept-specific pruning based on the generated descriptions. Finally, we highlight two acoustic model behaviors with analysis by $\textit{AND}$: (i) models discriminate audio with a combination of basic acoustic features rather than high-level abstract concepts; (ii) training strategies affect model behaviors and neuron interpretability -- supervised training guides neurons to gradually narrow their attention, while self-supervised learning encourages neurons to be polysemantic for exploring high-level features.
- Abstract(参考訳): ニューロンレベルの解釈は、特定の知覚または構造的な入力パターンに応答するニューロンを調査することによって、ネットワークの挙動と特性を説明することを目的としている。
視覚領域と言語領域には新たな研究があるが、音響モデルについての調査は行われていない。
このギャップを埋めるために,まず最初の$\textbf{A}$udio $\textbf{N}$etwork $\textbf{D}$issection frameworkを導入する。
$\textit{AND}$は、オーディオ間の相互音響的特徴とアイデンティティを要約するためにLLMを使用する。
大規模な実験を行い、$\textit{AND}$'sの正確な情報的記述を検証する。
さらに、生成した記述に基づいて概念固有のプルーニングを行うことにより、オーディオマシンのアンラーニングに$\textit{AND}$の潜在的使用を実証する。
最後に、$\textit{AND}$で解析した2つの音響モデル挙動について述べる。
(i)ハイレベルな抽象概念ではなく,基本的音響特徴を組み合わせた音響を識別するモデル。
(ii)訓練戦略はモデル行動やニューロンの解釈可能性に影響を及ぼし、教師付きトレーニングはニューロンに徐々に注意を絞るよう誘導する一方、自己教師型学習は、高レベルの特徴を探索するためにニューロンが多義的であることを奨励する。
関連論文リスト
- Unsupervised Auditory and Semantic Entrainment Models with Deep Neural
Networks [0.3222802562733786]
本稿では,意味学習を開発するためのテキストの特徴から意味のある表現を導出する,教師なしのディープラーニングフレームワークを提案する。
その結果,本モデルでは,HHとHMの相互作用を区別し,音響特性を抽出するための2つの分析単位が同等な結果をもたらすことが示唆された。
論文 参考訳(メタデータ) (2023-12-22T22:33:54Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Natural Language Descriptions of Deep Visual Features [50.270035018478666]
オープンエンド,コンポジション,自然言語による記述で自動的にニューロンをラベル付けする手法を提案する。
我々はMILANを用いて、視覚モデルにおける属性、カテゴリ、関係情報を選択的に選択したニューロンの分布と重要性を特徴付ける。
また、これらの特徴を曖昧にすることを目的としたデータセットでトレーニングされたモデルにおいて、人種や性別といった保護されたカテゴリに敏感な、監査用のMILANも使用しています。
論文 参考訳(メタデータ) (2022-01-26T18:48:02Z) - Deep Learning For Prominence Detection In Children's Read Speech [13.041607703862724]
本稿では, 幼児の口臭度評価に際し, 単語検出に係わる特徴を学習するためのセグメント音声波形を用いたシステムを提案する。
単語レベルの特徴とシーケンス情報の両方を取り入れた選択されたCRNN(畳み込みリカレントニューラルネットワーク)フレームワークは、知覚的に動機付けられたSincNetフィルタの恩恵を受けている。
論文 参考訳(メタデータ) (2021-10-27T08:51:42Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z) - What do End-to-End Speech Models Learn about Speaker, Language and
Channel Information? A Layer-wise and Neuron-level Analysis [16.850888973106706]
本稿では,事前学習した音声モデルの探索フレームワークを用いたポストホック機能解析を行う。
話者認識や方言識別といった様々なタスクのために訓練された音声モデルの発話レベル表現を解析する。
i) チャネル情報と性別情報はネットワーク全体に分散され,i) 情報はタスクに関してニューロンで冗長に利用可能であり,iv) 弁証情報などの複雑な特性はタスク指向の事前学習ネットワークでのみ符号化される。
論文 参考訳(メタデータ) (2021-07-01T13:32:55Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - Compositional Explanations of Neurons [52.71742655312625]
本稿では, 合成論理的概念を同定し, 深部表現におけるニューロンの説明手順について述べる。
本稿では,視覚と自然言語処理のモデルにおける解釈可能性に関するいくつかの疑問に答えるために,この手順を用いる。
論文 参考訳(メタデータ) (2020-06-24T20:37:05Z) - AudioMNIST: Exploring Explainable Artificial Intelligence for Audio
Analysis on a Simple Benchmark [12.034688724153044]
本稿では,音声領域におけるディープニューラルネットワークの時間後説明について検討する。
本稿では,3万個の英単語の音声サンプルからなるオープンソース音声データセットを提案する。
人間のユーザ研究において、視覚的説明よりも可聴説明の方が優れた解釈可能性を示す。
論文 参考訳(メタデータ) (2018-07-09T23:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。