論文の概要: Exploring the encoding of linguistic representations in the Fully-Connected Layer of generative CNNs for Speech
- arxiv url: http://arxiv.org/abs/2501.07726v1
- Date: Mon, 13 Jan 2025 22:24:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:25:39.008796
- Title: Exploring the encoding of linguistic representations in the Fully-Connected Layer of generative CNNs for Speech
- Title(参考訳): 音声合成CNNの完全連結層における言語表現の符号化の探索
- Authors: Bruno Ferenc Šegedin, Gasper Beguš,
- Abstract要約: 本研究は,音声合成のためのCNNの完全連結層が言語関連情報をエンコードする方法を初めて明らかにした。
本研究は,CNN(ciwGAN)における語彙的特異な潜伏符号が,FC層重みの語彙的不変な部分語彙表現を共有していることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Interpretability work on the convolutional layers of CNNs has primarily focused on computer vision, but some studies also explore correspondences between the latent space and the output in the audio domain. However, it has not been thoroughly examined how acoustic and linguistic information is represented in the fully connected (FC) layer that bridges the latent space and convolutional layers. The current study presents the first exploration of how the FC layer of CNNs for speech synthesis encodes linguistically relevant information. We propose two techniques for exploration of the fully connected layer. In Experiment 1, we use weight matrices as inputs into convolutional layers. In Experiment 2, we manipulate the FC layer to explore how symbolic-like representations are encoded in CNNs. We leverage the fact that the FC layer outputs a feature map and that variable-specific weight matrices are temporally structured to (1) demonstrate how the distribution of learned weights varies between latent variables in systematic ways and (2) demonstrate how manipulating the FC layer while holding constant subsequent model parameters affects the output. We ultimately present an FC manipulation that can output a single segment. Using this technique, we show that lexically specific latent codes in generative CNNs (ciwGAN) have shared lexically invariant sublexical representations in the FC-layer weights, showing that ciwGAN encodes lexical information in a linguistically principled manner.
- Abstract(参考訳): CNNの畳み込み層における解釈可能性の研究は、主にコンピュータビジョンに焦点を当てているが、いくつかの研究では、潜在空間とオーディオ領域の出力との対応についても検討している。
しかしながら、潜在空間と畳み込み層を橋渡しする完全連結(FC)層において、音響的および言語的情報がどのように表現されるかは詳しくは明らかになっていない。
本研究は, 音声合成のためのCNNのFC層が, 言語学的関連情報をエンコードする方法を初めて示すものである。
完全連結層を探索するための2つの手法を提案する。
実験1では、畳み込み層への入力として重み行列を使用します。
実験2では,CNNにおける記号的表現のエンコード方法を探るため,FC層を操作した。
我々は,FC層が特徴写像を出力し,変数固有の重み行列が時間的に構成されているという事実を活用し,(1)学習した重みの分布が潜在変数間で系統的にどう変化するか,(2)一定のモデルパラメータを保持しながらFC層の操作が出力に与える影響を実証する。
最終的に、ひとつのセグメントを出力できるFC操作を提示する。
本手法を用いて,CNNにおける語彙特異的潜伏符号(ciwGAN)は,FC層重みの語彙的不変な部分語彙表現を共有しており,ciwGANが語彙情報を言語的に原則化された方法で符号化していることを示す。
関連論文リスト
- Linking in Style: Understanding learned features in deep learning models [0.0]
畳み込みニューラルネットワーク(CNN)は抽象的な特徴を学び、オブジェクト分類を行う。
本稿では,CNNにおける学習特徴を可視化し,体系的に解析する自動手法を提案する。
論文 参考訳(メタデータ) (2024-09-25T12:28:48Z) - Implicit Multimodal Alignment: On the Generalization of Frozen LLMs to Multimodal Inputs [63.29737699997859]
大規模言語モデル(LLM)は、マルチモーダルな微調整をせずに、マルチモーダルなタスクにおいて印象的なパフォーマンスを示した。
本研究では,画像,ビデオ,音声,テキストの入力に凍結LDMを公開し,内部表現を解析する。
論文 参考訳(メタデータ) (2024-05-26T21:31:59Z) - Joint Prompt Optimization of Stacked LLMs using Variational Inference [66.04409787899583]
大規模言語モデル(LLM)は、列上の分布への計算マッピングシーケンスの原子単位と見なすことができる。
そのような2つのレイヤを積み重ねて1つのレイヤの出力を次のレイヤに供給することで、Deep Language Network(DLN)を得る。
DLN-2は単一層よりも高い性能に到達できることを示し、GPT-4に匹敵する性能に達することを約束する。
論文 参考訳(メタデータ) (2023-06-21T18:45:56Z) - Revealing Similar Semantics Inside CNNs: An Interpretable Concept-based
Comparison of Feature Spaces [0.0]
安全に重要なアプリケーションは、人工知能コンポーネントの透明性を必要とする。
認識タスクに広く使用される畳み込みニューラルネットワーク(CNN)は、固有の解釈可能性に欠ける。
CNN潜在空間内の意味情報間の階層的類似性を推定する2つの手法を提案する。
論文 参考訳(メタデータ) (2023-04-30T13:53:39Z) - A knowledge-driven vowel-based approach of depression classification
from speech using data augmentation [10.961439164833891]
音声からの抑うつを識別する新しい機械学習モデルを提案する。
提案手法はまず,局所レベルにおける可変長発話を固定サイズの母音ベース埋め込みにモデル化する。
うつ病は、別の1D CNNの入力として機能する母音CNN埋め込みのグループから世界レベルで分類される。
論文 参考訳(メタデータ) (2022-10-27T08:34:08Z) - Latent Topology Induction for Understanding Contextualized
Representations [84.7918739062235]
本研究では,文脈的埋め込みの表現空間について検討し,大規模言語モデルの隠れトポロジについて考察する。
文脈化表現の言語特性を要約した潜在状態のネットワークが存在することを示す。
論文 参考訳(メタデータ) (2022-06-03T11:22:48Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - SegTransVAE: Hybrid CNN -- Transformer with Regularization for medical
image segmentation [0.0]
本稿では,SegTransVAEという新しいネットワークを提案する。
SegTransVAEはエンコーダ-デコーダアーキテクチャに基づいて構築されており、ネットワークへの可変オートエンコーダ(VAE)ブランチでトランスフォーマーを利用する。
最近導入されたデータセットの評価によると、SegTransVAEはDice Scoreと95%$-Haudorff Distanceで過去の手法より優れている。
論文 参考訳(メタデータ) (2022-01-21T08:02:55Z) - RepMLP: Re-parameterizing Convolutions into Fully-connected Layers for
Image Recognition [123.59890802196797]
画像認識のための多層パーセプトロン型ニューラルネットワーク構築ブロックであるRepMLPを提案する。
トレーニング中にRepMLP内に畳み込み層を構築し,それをFCにマージして推論を行う。
従来のCNNにRepMLPを挿入することで、ImageNetでは1.8%の精度、顔認識では2.9%、FLOPの低いCityscapeでは2.3%のmIoUを改善します。
論文 参考訳(メタデータ) (2021-05-05T06:17:40Z) - Interpreting intermediate convolutional layers of CNNs trained on raw
speech [0.0]
各畳み込み層におけるReLUアクティベーション後の特徴マップを平均すると、解釈可能な時系列データが得られることを示す。
提案手法は中間畳み込み層の音響解析を可能にする。
論文 参考訳(メタデータ) (2021-04-19T17:52:06Z) - Video-based Facial Expression Recognition using Graph Convolutional
Networks [57.980827038988735]
我々は、ビデオベースの表情認識のための共通のCNN-RNNモデルに、GCN(Graph Convolutional Network)層を導入する。
我々は、CK+、Oulu-CASIA、MMIの3つの広く使われているデータセットと、AFEW8.0の挑戦的なワイルドデータセットについて、本手法の評価を行った。
論文 参考訳(メタデータ) (2020-10-26T07:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。