論文の概要: A Technique for Isolating Lexically-Independent Phonetic Dependencies in Generative CNNs
- arxiv url: http://arxiv.org/abs/2506.09218v1
- Date: Tue, 10 Jun 2025 20:22:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.070956
- Title: A Technique for Isolating Lexically-Independent Phonetic Dependencies in Generative CNNs
- Title(参考訳): 生成CNNにおける語彙非依存音素依存性の分離手法
- Authors: Bruno Ferenc Šegedin,
- Abstract要約: 語彙学習から派生した音韻論的一般化を表現するディープニューラルネットワーク(DNN)の能力は、未解決の問題である。
本研究では,語彙項目の生音声波形に基づいて学習した生成畳み込みニューラルネットワーク(CNN)の語彙不変な一般化能力について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability of deep neural networks (DNNs) to represent phonotactic generalizations derived from lexical learning remains an open question. This study (1) investigates the lexically-invariant generalization capacity of generative convolutional neural networks (CNNs) trained on raw audio waveforms of lexical items and (2) explores the consequences of shrinking the fully-connected layer (FC) bottleneck from 1024 channels to 8 before training. Ultimately, a novel technique for probing a model's lexically-independent generalizations is proposed that works only under the narrow FC bottleneck: generating audio outputs by bypassing the FC and inputting randomized feature maps into the convolutional block. These outputs are equally biased by a phonotactic restriction in training as are outputs generated with the FC. This result shows that the convolutional layers can dynamically generalize phonetic dependencies beyond lexically-constrained configurations learned by the FC.
- Abstract(参考訳): 語彙学習から派生した音韻論的一般化を表現するディープニューラルネットワーク(DNN)の能力は、未解決の問題である。
本研究では,語彙項目の生音声波形に基づいて学習した生成畳み込みニューラルネットワーク(CNN)の語彙的不変な一般化能力について検討し,学習前の1024チャンネルから8チャンネルまで,完全連結層(FC)ボトルネックを縮小させる結果について検討した。
最終的に、モデルの語彙非依存の一般化を探索する新しい手法が提案され、狭いFCボトルネックの下でのみ機能し、FCをバイパスし、ランダム化された特徴写像を畳み込みブロックに入力することで音声出力を生成する。
これらの出力は、FCで生成された出力と同様に、トレーニングにおけるフォノタクティックな制限によって等しくバイアスされる。
この結果から、畳み込み層は、FCが学習した語彙的に制約された構成以上の音素依存性を動的に一般化できることを示す。
関連論文リスト
- Exploring the encoding of linguistic representations in the Fully-Connected Layer of generative CNNs for Speech [0.0]
本研究は,音声合成のためのCNNの完全連結層が言語関連情報をエンコードする方法を初めて明らかにした。
本研究は,CNN(ciwGAN)における語彙的特異な潜伏符号が,FC層重みの語彙的不変な部分語彙表現を共有していることを示す。
論文 参考訳(メタデータ) (2025-01-13T22:24:52Z) - LipKernel: Lipschitz-Bounded Convolutional Neural Networks via Dissipative Layers [0.0468732641979009]
本稿では,畳み込みニューラルネットワーク(CNN)の階層的パラメータ化を提案する。
提案手法は,2次元ロエサー型状態空間モデルを用いて,散逸型畳み込みカーネルを直接パラメータ化する。
提案手法を用いた実行時間は,最先端のリプシッツ有界ネットワークよりも桁違いに高速であることを示す。
論文 参考訳(メタデータ) (2024-10-29T17:20:14Z) - The Convex Landscape of Neural Networks: Characterizing Global Optima
and Stationary Points via Lasso Models [75.33431791218302]
ディープニューラルネットワーク(DNN)モデルは、プログラミング目的に使用される。
本稿では,凸型神経回復モデルについて検討する。
定常的非次元目的物はすべて,グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
また, 静止非次元目的物はすべて, グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
論文 参考訳(メタデータ) (2023-12-19T23:04:56Z) - Semantics Alignment via Split Learning for Resilient Multi-User Semantic
Communication [56.54422521327698]
最近の意味コミュニケーションの研究は、ディープジョイントソースやチャネルコーディング(DeepJSCC)のようなニューラルネットワーク(NN)ベースのトランシーバに依存している。
従来のトランシーバとは異なり、これらのニューラルトランシーバは実際のソースデータとチャネルを使用してトレーニング可能であり、セマンティクスを抽出し通信することができる。
本稿では,分割学習(SL)と部分的NN微調整技術を活用する分散学習ベースソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-13T20:29:55Z) - Speed Limits for Deep Learning [67.69149326107103]
熱力学の最近の進歩は、初期重量分布から完全に訓練されたネットワークの最終分布への移動速度の制限を可能にする。
線形および線形化可能なニューラルネットワークに対して,これらの速度制限に対する解析式を提供する。
NTKスペクトルとラベルのスペクトル分解に関するいくつかの妥当なスケーリング仮定を考えると、学習はスケーリングの意味で最適である。
論文 参考訳(メタデータ) (2023-07-27T06:59:46Z) - Local Kernel Renormalization as a mechanism for feature learning in
overparametrized Convolutional Neural Networks [0.0]
実験的な証拠は、無限幅限界における完全連結ニューラルネットワークが最終的に有限幅限界よりも優れていることを示している。
畳み込み層を持つ最先端アーキテクチャは、有限幅構造において最適な性能を達成する。
有限幅FCネットワークの一般化性能は,ガウス事前選択に適した無限幅ネットワークで得られることを示す。
論文 参考訳(メタデータ) (2023-07-21T17:22:04Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - The Separation Capacity of Random Neural Networks [78.25060223808936]
標準ガウス重みと一様分布バイアスを持つ十分に大きな2層ReLUネットワークは、この問題を高い確率で解くことができることを示す。
我々は、相互複雑性という新しい概念の観点から、データの関連構造を定量化する。
論文 参考訳(メタデータ) (2021-07-31T10:25:26Z) - Redundant representations help generalization in wide neural networks [71.38860635025907]
様々な最先端の畳み込みニューラルネットワークの最後に隠された層表現について検討する。
最後に隠された表現が十分に広ければ、そのニューロンは同一の情報を持つグループに分裂し、統計的に独立したノイズによってのみ異なる傾向にある。
論文 参考訳(メタデータ) (2021-06-07T10:18:54Z) - The Curious Case of Convex Neural Networks [12.56278477726461]
完全連結層と畳み込み層の両方に凸性制約を適用可能であることを示す。
a) IOC-NN(Input Output Convex Neural Networks)の自己正規化とオーバーフィッティング(オーバーフィッティング)の問題の低減; (b) 厳しい制約にもかかわらず、ベースマルチレイヤのパーセプトロンを上回り、ベースコンボリューションアーキテクチャと比較して同様のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-06-09T08:16:38Z) - CiwGAN and fiwGAN: Encoding information in acoustic data to model
lexical learning with Generative Adversarial Networks [0.0]
語彙学習は、ディープニューラルネットワークにデータを出力させるアーキテクチャの創発体としてモデル化される。
TIMITの辞書項目で訓練されたネットワークは、辞書項目に対応するユニークな情報を、その潜在空間におけるカテゴリ変数の形で符号化することを学ぶ。
ネットワークで学習した音声と音韻の表現は、生産的に組み換えられ、人間の発話の生産性と直接的に平行にできることを示す。
論文 参考訳(メタデータ) (2020-06-04T15:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。