論文の概要: Basic syntax from speech: Spontaneous concatenation in unsupervised deep neural networks
- arxiv url: http://arxiv.org/abs/2305.01626v3
- Date: Wed, 20 Nov 2024 18:30:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:11:02.846623
- Title: Basic syntax from speech: Spontaneous concatenation in unsupervised deep neural networks
- Title(参考訳): 音声からの基本構文:教師なしディープニューラルネットワークにおける自発的結合
- Authors: Gašper Beguš, Thomas Lu, Zili Wang,
- Abstract要約: 私たちは構文の最もユビキタスで初歩的な部分操作の1つに焦点を合わせます。
本稿では,個々の単語の音響記録を訓練した畳み込みニューラルネットワーク(CNN)が出力を発生させる現象について紹介する。
また、結合性や構成性への神経経路を概説するディスインヒビション(disinhibition)と呼ばれる潜在的な神経機構を提案する。
- 参考スコア(独自算出の注目度): 8.683116789109462
- License:
- Abstract: Computational models of syntax are predominantly text-based. Here we propose that the most basic first step in the evolution of syntax can be modeled directly from raw speech in a fully unsupervised way. We focus on one of the most ubiquitous and elementary suboperation of syntax -- concatenation. We introduce spontaneous concatenation: a phenomenon where convolutional neural networks (CNNs) trained on acoustic recordings of individual words start generating outputs with two or even three words concatenated without ever accessing data with multiple words in the input. We replicate this finding in several independently trained models with different hyperparameters and training data. Additionally, networks trained on two words learn to embed words into novel unobserved word combinations. We also show that the concatenated outputs contain precursors to compositionality. To our knowledge, this is a previously unreported property of CNNs trained in the ciwGAN/fiwGAN setting on raw speech and has implications both for our understanding of how these architectures learn as well as for modeling syntax and its evolution in the brain from raw acoustic inputs. We also propose a potential neural mechanism called disinhibition that outlines a possible neural pathway towards concatenation and compositionality and suggests our modeling is useful for generating testable prediction for biological and artificial neural processing of speech.
- Abstract(参考訳): 構文の計算モデルは、主にテキストベースである。
本稿では、構文の進化における最も基本的な第一歩を、完全に教師なしの方法で生の音声から直接モデル化できることを提案する。
私たちは構文の最もユビキタスで初歩的な部分操作の1つに焦点を合わせます。
個別単語の音響記録を訓練した畳み込みニューラルネットワーク(CNN)が、入力に複数の単語を持つデータにアクセスすることなく、連結された2つか3つの単語で出力を生成し始める現象である。
我々はこの発見を、異なるハイパーパラメータとトレーニングデータを持つ、独立に訓練されたいくつかのモデルで再現する。
さらに、2つの単語で訓練されたネットワークは、新しい保存されていない単語の組み合わせに単語を埋め込むことを学ぶ。
また、連結出力は構成性の前駆体を含むことを示す。
我々の知る限り、これは生の音声に基づくciwGAN/fiwGAN設定で訓練されたCNNのこれまで報告されていない特性であり、これらのアーキテクチャがどのように学習するかを理解するだけでなく、生の音響入力から脳の構文やその進化をモデル化するためにも意味を持つ。
また, 音声の生物学的および人工的ニューラル処理の予測に有用であることを示すために, 結合性や構成性への神経経路を概説するディスインヒビション(disinhibition)と呼ばれる潜在的なニューラルメカニズムを提案する。
関連論文リスト
- Neural paraphrasing by automatically crawled and aligned sentence pairs [11.95795974003684]
ニューラルネットワークベースのパラフレーズ化に対する主な障害は、一致した文とパラフレーズのペアを持つ大きなデータセットの欠如である。
本稿では,ニュースサイトやブログサイトが,異なる物語スタイルを用いて同じ出来事を語るという仮定に基づいて,大規模コーパスの自動生成手法を提案する。
本稿では,言語制約のある類似性探索手法を提案する。これは,参照文が与えられた場合,数百万のインデックス付き文から最も類似した候補パラフレーズを見つけることができる。
論文 参考訳(メタデータ) (2024-02-16T10:40:38Z) - Audio-Visual Neural Syntax Acquisition [91.14892278795892]
視覚的音声からの句構造誘導について検討する。
本稿では,音声を聴いたり,画像を見たりすることでフレーズ構造を学習するAV-NSL(Audio-Visual Neural Syntax Learner)について述べる。
論文 参考訳(メタデータ) (2023-10-11T16:54:57Z) - Neural approaches to spoken content embedding [1.3706331473063877]
我々は、リカレントニューラルネットワーク(RNN)に基づく新しい識別的音響単語埋め込み(AWE)と音響的接地単語埋め込み(AGWE)アプローチに貢献する。
我々は,単言語と多言語の両方の埋め込みモデルを,クエリ・バイ・サンプル音声検索と自動音声認識の下流タスクに適用する。
論文 参考訳(メタデータ) (2023-08-28T21:16:08Z) - RWEN-TTS: Relation-aware Word Encoding Network for Natural
Text-to-Speech Synthesis [3.591224588041813]
膨大な数のTTSモデルが人間のような音声を生成する。
リレーショナル・アウェア・ワード・ネットワーク(RWEN)は,2つのモジュールをベースとした統語的・意味的情報を実現する。
実験結果から, 前作に比べて大幅な改善が見られた。
論文 参考訳(メタデータ) (2022-12-15T16:17:03Z) - token2vec: A Joint Self-Supervised Pre-training Framework Using Unpaired
Speech and Text [65.04385919645395]
token2vecは、音声の離散表現に基づく、未ペア音声とテキストのための新しい事前学習フレームワークである。
実験の結果、 token2vec は様々な音声のみの事前学習ベースラインよりも大幅に優れており、WER の相対的な減少率は17.7%である。
論文 参考訳(メタデータ) (2022-10-30T06:38:19Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Modeling speech recognition and synthesis simultaneously: Encoding and
decoding lexical and sublexical semantic information into speech with no
direct access to speech data [0.0]
我々は,非教師付き語彙学習において最も困難な目的である,辞書項目にユニークな表現を割り当てることを学ぶ教師なしネットワークを紹介した。
語彙学習に賛成する強い証拠が現れる。
生産と知覚の原則を組み合わせたアーキテクチャは、実際のトレーニングデータにアクセスすることなく、教師なしの方法で生の音響データからユニークな情報を復号することができる。
論文 参考訳(メタデータ) (2022-03-22T06:04:34Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - ALICE: Active Learning with Contrastive Natural Language Explanations [69.03658685761538]
本研究では,学習におけるデータ効率を向上させるために,AlICEを用いたアクティブラーニングを提案する。
ALICEは、まずアクティブラーニングを使用して、最も情報に富んだラベルクラスを選択し、対照的な自然言語の説明を引き出す。
意味的に抽出された知識を用いて、これらの説明から知識を抽出する。
論文 参考訳(メタデータ) (2020-09-22T01:02:07Z) - CiwGAN and fiwGAN: Encoding information in acoustic data to model
lexical learning with Generative Adversarial Networks [0.0]
語彙学習は、ディープニューラルネットワークにデータを出力させるアーキテクチャの創発体としてモデル化される。
TIMITの辞書項目で訓練されたネットワークは、辞書項目に対応するユニークな情報を、その潜在空間におけるカテゴリ変数の形で符号化することを学ぶ。
ネットワークで学習した音声と音韻の表現は、生産的に組み換えられ、人間の発話の生産性と直接的に平行にできることを示す。
論文 参考訳(メタデータ) (2020-06-04T15:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。