論文の概要: Does human speech follow Benford's Law?
- arxiv url: http://arxiv.org/abs/2203.13352v1
- Date: Thu, 24 Mar 2022 21:54:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 01:12:15.376099
- Title: Does human speech follow Benford's Law?
- Title(参考訳): 人間スピーチはベンフォードの法則に従うか?
- Authors: Leo Hsu and Visar Berisha
- Abstract要約: 人為的および自然発生的データセットにおける先頭桁の頻度は対数曲線に従う。
人間の音声スペクトルもベンフォードの法則に従っていることを示す。
- 参考スコア(独自算出の注目度): 16.904084989671286
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Researchers have observed that the frequencies of leading digits in many
man-made and naturally occurring datasets follow a logarithmic curve, with
digits that start with the number 1 accounting for $\sim 30\%$ of all numbers
in the dataset and digits that start with the number 9 accounting for $\sim
5\%$ of all numbers in the dataset. This phenomenon, known as Benford's Law, is
highly repeatable and appears in lists of numbers from electricity bills, stock
prices, tax returns, house prices, death rates, lengths of rivers, and
naturally occurring images. In this paper we demonstrate that human speech
spectra also follow Benford's Law. We use this observation to motivate a new
set of features that can be efficiently extracted from speech and demonstrate
that these features can be used to classify between human speech and synthetic
speech.
- Abstract(参考訳): 研究者は、多くの人為的および自然発生的なデータセットにおける先頭桁の頻度は対数曲線に従っており、数字1から始まる数字はデータセットの全ての数字の$\sim 30\%$、数字9から始まる数字はデータセットのすべての数字の$\sim 5\%$である。
この現象はベンフォードの法則と呼ばれ、高い再現性があり、電気料金、株価、税収、住宅価格、死亡率、河川の長さ、自然に発生する画像からの数字のリストに現れる。
本稿では,人間の発話スペクトルがベンフォードの法則にも従うことを示す。
この観察を用いて,音声から効率的に抽出できる新たな特徴セットの動機付けを行い,これらの特徴が人間の発話と合成音声の分類に使用できることを示す。
関連論文リスト
- Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - VALL-E 2: Neural Codec Language Models are Human Parity Zero-Shot Text to Speech Synthesizers [119.89284877061779]
本稿では,ゼロショット音声合成(TTS)の節目となる,ニューラルネットワークモデルの最新の進歩であるVALL-E 2を紹介する。
VALL-E 2は、その複雑さや反復句によって伝統的に困難な文であっても、高品質な音声を一貫して合成する。
この研究の利点は、失語症のある人や筋萎縮性側索硬化症を持つ人のためのスピーチを生成するなど、貴重な努力に寄与する可能性がある。
論文 参考訳(メタデータ) (2024-06-08T06:31:03Z) - Humans and language models diverge when predicting repeating text [52.03471802608112]
我々は,人間とLMのパフォーマンスが分岐するシナリオを提示する。
人間とGPT-2 LMの予測はテキストスパンの最初のプレゼンテーションで強く一致しているが、メモリが役割を担い始めると、その性能は急速にバラバラになる。
このシナリオが,LMを人間の行動に近づける上で,今後の作業に拍車をかけることを期待しています。
論文 参考訳(メタデータ) (2023-10-10T08:24:28Z) - Exploring the Law of Numbers: Evidence from China's Real Estate [3.202106725263241]
有名な証明である「数字は嘘をつかない」は、数字の下にある信頼性と洞察を強調している。
本論文は、中国不動産の財務諸表を代表として、番号法を定めている。
論文 参考訳(メタデータ) (2023-09-11T03:54:38Z) - Big Data and Large Numbers. Interpreting Zipf's Law [0.0]
ビッグデータにおけるいくつかの経験的事実は、多数の性質の影響である。
Zipfの法則「ノイズ」はそのような工芸品の例である。
論文 参考訳(メタデータ) (2023-05-04T10:03:37Z) - "Genlangs" and Zipf's Law: Do languages generated by ChatGPT
statistically look human? [0.0]
本研究では, ChatGPT が生成した genlang が Zipf の法則に従うかどうかを検討する。
Zipfの法則は、自然および人工的に構築されたすべての人間の言語をほぼ包含する。
我々は、人間の援助により、AIは世界で初めて完全に機能する言語を作ることができると結論付けている。
論文 参考訳(メタデータ) (2023-03-31T20:10:59Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z) - A Convolutional Neural Network Based Approach to Recognize Bangla Spoken
Digits from Speech Signal [0.0]
データセットを作成するために、1桁あたり400のノイズとノイズのないサンプルが記録されている。
MFCC(Mel Frequency Cepstrum Coefficients)は生音声データから有意な特徴を抽出するために用いられている。
畳み込みニューラルネットワーク(CNN)を用いてバングラ数桁を検出する。
提案手法は、データセット全体を通して97.1%の精度で'0-9'バングラ音声桁を認識する。
論文 参考訳(メタデータ) (2021-11-12T09:38:15Z) - On The Connection of Benford's Law and Neural Networks [0.0]
ベンフォードの法則(ベンフォードの法則、英: Significant Digit Law)は、自然に発生する多くのデータ集合で観察される。
本稿では,ニューラルネットワークの重みがベンフォードの法則にどの程度近いかを示すスコアである$MLH$を定義する。
論文 参考訳(メタデータ) (2021-02-05T17:39:36Z) - What is More Likely to Happen Next? Video-and-Language Future Event
Prediction [111.93601253692165]
対話が整ったビデオの場合、人々は次に何が起こるかを見極めることができる。
本研究では,AIモデルがこのようなマルチモーダル・コモンセンスの次世代予測を学べるかどうかを考察する。
新しいデータセットであるVideo-and-Language Event Prediction(ビデオ・アンド・ランゲージ・イベント予測)を収集します。
論文 参考訳(メタデータ) (2020-10-15T19:56:47Z) - A robot that counts like a child: a developmental model of counting and
pointing [69.26619423111092]
実物を数えることができる新しい神経ロボティクスモデルを導入する。
このモデルにより,エンボディメントと数値認識の相互作用を調べることができる。
トレーニングされたモデルは、アイテムのセットをカウントすることができ、同時にそれらを指し示します。
論文 参考訳(メタデータ) (2020-08-05T21:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。