論文の概要: A New Method Towards Speech Files Local Features Investigation
- arxiv url: http://arxiv.org/abs/2006.03388v1
- Date: Fri, 5 Jun 2020 11:53:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 04:20:41.270443
- Title: A New Method Towards Speech Files Local Features Investigation
- Title(参考訳): 音声ファイルの局所特徴探索のための新しい手法
- Authors: Rustam Latypov and Evgeni Stolov
- Abstract要約: 使用する話者言語の多くの重要な特徴が音声信号の形で現れることが述べられている。
伝統的な楽器 - 短いフーリエ変換、ウェーブレット変換、アダマール変換、自己相関など は、言語の全ての特性を検出できない。
本稿では,そのような特性を探索するための新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There are a few reasons for the recent increased interest in the study of
local features of speech files. It is stated that many essential features of
the speaker language used can appear in the form of the speech signal. The
traditional instruments - short Fourier transform, wavelet transform, Hadamard
transforms, autocorrelation, and the like can detect not all particular
properties of the language. In this paper, we suggest a new approach to the
exploration of such properties. The source signal is approximated by a new one
that has its values taken from a finite set. Then we construct a new sequence
of vectors of a fixed size on the base of those approximations. Examination of
the distribution of the produced vectors provides a new method for a
description of speech files local characteristics. Finally, the developed
technique is applied to the problem of the automatic distinguishing of two
known languages used in speech files. For this purpose, a simple neural net is
consumed.
- Abstract(参考訳): 近年,音声ファイルの局所的特徴研究への関心が高まっている理由はいくつかある。
使用する話者言語の多くの本質的な特徴が音声信号の形で現れることが述べられている。
伝統的な楽器 - 短フーリエ変換、ウェーブレット変換、ハダマール変換、自己相関など - は言語の特定の性質を全て検出できるわけではない。
本稿では,そのような特性を探索するための新しいアプローチを提案する。
ソース信号は、その値が有限集合から取られる新しい信号によって近似される。
次に、これらの近似の基底に一定の大きさのベクトルの新しい列を構築する。
生成されたベクトルの分布の検討は、音声ファイルの局所的特徴を記述する新しい方法を提供する。
最後に,音声ファイルにおける2つの既知の言語の自動識別の問題に対して,本手法を適用した。
この目的のために、単純なニューラルネットが消費される。
関連論文リスト
- Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models [55.19497659895122]
本稿ではスパース特徴回路の発見と適用方法を紹介する。
これらは言語モデルの振る舞いを説明するための人間の解釈可能な特徴の因果関係の著作である。
論文 参考訳(メタデータ) (2024-03-28T17:56:07Z) - Establishing degrees of closeness between audio recordings along
different dimensions using large-scale cross-lingual models [4.349838917565205]
そこで本稿では,メタデータを慎重にキュレートした音声録音におけるABXテストを用いた教師なしの新しい手法を提案する。
3つの実験が考案され、1つは室内音響、もう1つは言語学的ジャンル、もう1つは音声学的側面である。
その結果,異なる言語・言語的特徴を持つ記録から抽出した表現は,同じ線に沿って異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-08T11:31:23Z) - Semantic Prompt for Few-Shot Image Recognition [76.68959583129335]
本稿では,数ショット学習のための新しいセマンティック・プロンプト(SP)手法を提案する。
提案手法は,1ショットの学習精度を平均3.67%向上させることにより,有望な結果が得られる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - Topological Data Analysis for Speech Processing [10.00176964652466]
このような特徴の上に構築された単純な線形分類器は、微調整された分類ヘッドよりも優れていることを示す。
また、トポロジカルな特徴は、音声トランスフォーマーヘッドの機能的役割を明らかにすることができることを示す。
論文 参考訳(メタデータ) (2022-11-30T18:22:37Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - Speech Emotion Recognition Using Deep Sparse Auto-Encoder Extreme
Learning Machine with a New Weighting Scheme and Spectro-Temporal Features
Along with Classical Feature Selection and A New Quantum-Inspired Dimension
Reduction Method [3.8073142980733]
音声信号に基づく音声感情認識システム(SER)を提案する。
このシステムは,特徴抽出,特徴選択,最後に特徴分類という3つの段階から構成される。
従来の重み付け法よりも効率的なクラス不均衡に対処する新しい重み付け法も提案されている。
論文 参考訳(メタデータ) (2021-11-13T11:09:38Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - A Simple Geometric Method for Cross-Lingual Linguistic Transformations
with Pre-trained Autoencoders [11.506062545971568]
複数の言語で訓練された強力な文エンコーダが増えている。
これらのシステムは、幅広い言語特性をベクトル表現に埋め込むことができる。
埋め込み空間における幾何写像を用いた言語特性の変換について検討する。
論文 参考訳(メタデータ) (2021-04-08T09:33:50Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z) - Rethinking Generative Zero-Shot Learning: An Ensemble Learning
Perspective for Recognising Visual Patches [52.67723703088284]
我々はMPGAN(Multi-patch Generative Adversarial Nets)と呼ばれる新しいフレームワークを提案する。
MPGANは、新しい重み付き投票戦略で、ローカルパッチ機能とラベルが見えないクラスを合成する。
MPGANは最先端の手法よりもはるかに精度が高い。
論文 参考訳(メタデータ) (2020-07-27T05:49:44Z) - Towards Relevance and Sequence Modeling in Language Recognition [39.547398348702025]
本稿では,言語認識における短系列情報を利用したニューラルネットワークフレームワークを提案する。
音声認識タスクの関連性に基づいて、音声データの一部を重み付けする言語認識に関連性を取り入れた新しいモデルを提案する。
NIST LRE 2017 Challengeにおいて、クリーン、ノイズ、マルチ話者音声データを用いて言語認識タスクを用いて実験を行う。
論文 参考訳(メタデータ) (2020-04-02T18:31:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。