論文の概要: Phoneme-retrieval; voice recognition; vowels recognition
- arxiv url: http://arxiv.org/abs/2307.07407v1
- Date: Mon, 10 Jul 2023 17:25:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-23 12:38:09.858233
- Title: Phoneme-retrieval; voice recognition; vowels recognition
- Title(参考訳): 音素リトライバル;音声認識;母音認識
- Authors: Brunello Tirozzi, Orchidea Maria Lecian
- Abstract要約: ネットワーク構築の特定の方法による音素検索手法が提案されている。
これらのニューロンの数は、データの典型的な構造の数とほぼ等しい。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A phoneme-retrieval technique is proposed, which is due to the particular way
of the construction of the network. An initial set of neurons is given. The
number of these neurons is approximately equal to the number of typical
structures of the data. For example if the network is built for voice retrieval
then the number of neurons must be equal to the number of characteristic
phonemes of the alphabet of the language spoken by the social group to which
the particular person belongs. Usually this task is very complicated and the
network can depend critically on the samples used for the learning. If the
network is built for image retrieval then it works only if the data to be
retrieved belong to a particular set of images. If the network is built for
voice recognition it works only for some particular set of words. A typical
example is the words used for the flight of airplanes. For example a command
like the "airplane should make a turn of 120 degrees towards the east" can be
easily recognized by the network if a suitable learning procedure is used.
- Abstract(参考訳): ネットワーク構築の特定の方法による音素リトライバル手法が提案されている。
ニューロンの初期セットが与えられる。
これらのニューロンの数は、データの典型的な構造の数とほぼ等しい。
例えば、ネットワークが音声検索のために構築されている場合、ニューロンの数は、特定の人物が属する社会集団によって話される言語のアルファベットの特徴音素の数に等しい必要がある。
通常、このタスクは非常に複雑で、ネットワークは学習に使用されるサンプルに批判的に依存する。
ネットワークが画像検索のために構築されている場合、取得されるデータが特定の画像の集合に属する場合にのみ機能する。
ネットワークが音声認識のために構築されている場合、特定の単語セットでのみ動作する。
典型的な例は飛行機の飛行に使用される言葉である。
例えば、「航空機は東へ120度回転すべき」というようなコマンドは、適切な学習手順が使われる場合、ネットワークによって容易に認識できる。
関連論文リスト
- Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
形式言語理論は、特に認識者に関するものである。
代わりに、非公式な意味でのみ類似したプロキシタスクを使用するのが一般的である。
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価することで、このミスマッチを補正する。
論文 参考訳(メタデータ) (2024-11-11T16:33:25Z) - Explaining Spectrograms in Machine Learning: A Study on Neural Networks for Speech Classification [2.4472308031704073]
本研究では,ニューラルネットワークで学習した音声の正確な分類のための識別パターンについて検討する。
母音分類のためのニューラルネットワークのアクティベーションと特徴を調べることで、スペクトログラムでネットワークが何を見るかについての洞察を得る。
論文 参考訳(メタデータ) (2024-07-10T07:37:18Z) - Cracking the neural code for word recognition in convolutional neural networks [1.0991358618541507]
学習スクリプトにおける単語認識のために,単位の小さなサブセットがどのように特殊化されるかを示す。
これらのユニットは、単語の左または右の空白空間からの距離や特定の文字の識別に敏感であることを示す。
提案したニューラルネットワークは,文字の同一性や位置に関する情報を抽出し,不変な単語認識を可能にするメカニズム的な知見を提供する。
論文 参考訳(メタデータ) (2024-03-10T10:12:32Z) - Image segmentation with traveling waves in an exactly solvable recurrent
neural network [71.74150501418039]
繰り返しニューラルネットワークは、シーンの構造特性に応じて、画像をグループに効果的に分割できることを示す。
本稿では,このネットワークにおけるオブジェクトセグメンテーションのメカニズムを正確に記述する。
次に、グレースケール画像中の単純な幾何学的対象から自然画像まで、入力をまたいで一般化するオブジェクトセグメンテーションの簡単なアルゴリズムを実証する。
論文 参考訳(メタデータ) (2023-11-28T16:46:44Z) - Measures of Information Reflect Memorization Patterns [53.71420125627608]
異なるニューロンの活性化パターンの多様性は、モデル一般化と記憶の反映であることを示す。
重要なことは、情報組織が記憶の2つの形態を指していることである。
論文 参考訳(メタデータ) (2022-10-17T20:15:24Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - AVLnet: Learning Audio-Visual Language Representations from
Instructional Videos [69.56522471911396]
本稿では,生のビデオ入力から直接共有映像埋め込み空間を学習する自己教師型ネットワークであるAVLnetを紹介する。
AVLnet を HowTo100M でトレーニングし,画像検索およびビデオ検索タスクの評価を行う。
私たちのコード、データ、トレーニングされたモデルは、avlnet.csail.mit.eduでリリースされます。
論文 参考訳(メタデータ) (2020-06-16T14:38:03Z) - Generative Adversarial Phonology: Modeling unsupervised phonetic and
phonological learning with neural networks [0.0]
音声データにおけるよく理解された依存関係に基づくディープニューラルネットワークのトレーニングは、内部表現の学習方法に関する新たな洞察を提供することができる。
本稿では, 音声の獲得を, 生成適応型ネットワークアーキテクチャにおけるランダム空間と生成した音声データ間の依存性としてモデル化することができることを論じる。
本稿では,音韻的・音韻的特性に対応するネットワークの内部表現を明らかにする手法を提案する。
論文 参考訳(メタデータ) (2020-06-06T20:31:23Z) - Deep Sensory Substitution: Noninvasively Enabling Biological Neural
Networks to Receive Input from Artificial Neural Networks [5.478764356647437]
本研究は,視覚情報を知覚音声領域に音化するために,機械学習機能埋め込みを活用する新しい手法について述べる。
次に、生成逆数ネットワーク(GAN)を用いて、特徴ベクトルのこの距離空間からターゲットオーディオデータセットで定義された距離保存マップを求める。
人間の被験者によるテストでは、ユーザーは顔の音声音化を正確に分類することができた。
論文 参考訳(メタデータ) (2020-05-27T11:41:48Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z) - Multi-task Learning for Speaker Verification and Voice Trigger Detection [18.51531434428444]
両タスクを共同で行うための1つのネットワークのトレーニングについて検討する。
本研究では,数千時間のラベル付きトレーニングデータを用いてモデルを訓練する大規模実証的研究を提案する。
以上の結果から,学習表現において,両話者情報を符号化できることが示唆された。
論文 参考訳(メタデータ) (2020-01-26T21:19:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。