論文の概要: Visualizations of Complex Sequences of Family-Infant Vocalizations Using
Bag-of-Audio-Words Approach Based on Wav2vec 2.0 Features
- arxiv url: http://arxiv.org/abs/2203.15183v1
- Date: Tue, 29 Mar 2022 01:46:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 16:40:55.334996
- Title: Visualizations of Complex Sequences of Family-Infant Vocalizations Using
Bag-of-Audio-Words Approach Based on Wav2vec 2.0 Features
- Title(参考訳): wav2vec 2.0 特徴に基づくbag-of-audio-words アプローチによる家族性発声の複雑なシーケンスの可視化
- Authors: Jialu Li, Mark Hasegawa-Johnson, Nancy L. McElwain
- Abstract要約: 米国では、2-8歳の子供の約15-17%が、少なくとも1つの精神、行動、発達障害を診断していると推定されている。
これまでの研究では、携帯電話、ビデオ、LENAのような音声のみの記録装置を用いて収集された幼児および/または親の発声の分類において、高度なMLモデルが優れていることが示されている。
我々は、wav2vec 2.0機能を持つbaba-of-audio-words法を用いて、家族と幼児の発声相互作用を理解するための高レベルな可視化を作成する。
- 参考スコア(独自算出の注目度): 41.07344746812834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the U.S., approximately 15-17% of children 2-8 years of age are estimated
to have at least one diagnosed mental, behavioral or developmental disorder.
However, such disorders often go undiagnosed, and the ability to evaluate and
treat disorders in the first years of life is limited. To analyze infant
developmental changes, previous studies have shown advanced ML models excel at
classifying infant and/or parent vocalizations collected using cell phone,
video, or audio-only recording device like LENA. In this study, we pilot test
the audio component of a new infant wearable multi-modal device that we have
developed called LittleBeats (LB). LB audio pipeline is advanced in that it
provides reliable labels for both speaker diarization and vocalization
classification tasks, compared with other platforms that only record audio
and/or provide speaker diarization labels. We leverage wav2vec 2.0 to obtain
superior and more nuanced results with the LB family audio stream. We use a
bag-of-audio-words method with wav2vec 2.0 features to create high-level
visualizations to understand family-infant vocalization interactions. We
demonstrate that our high-quality visualizations capture major types of family
vocalization interactions, in categories indicative of mental, behavioral, and
developmental health, for both labeled and unlabeled LB audio.
- Abstract(参考訳): 米国では、2-8歳児の約15-17%が少なくとも1人の精神障害、行動障害、発達障害と診断されている。
しかし、そのような疾患はしばしば診断されず、初年の障害を評価し治療する能力は限られている。
幼児の発達変化を分析するために、これまでの研究では、lenaのような携帯電話、ビデオ、音声のみの記録装置を用いて収集された幼児および/または親の発声の分類に優れた高度なmlモデルが示されている。
本研究では,LittleBeats (LB) と呼ばれる乳幼児用ウェアラブルマルチモーダルデバイスの音声成分を試験的に検討した。
LBオーディオパイプラインは、話者ダイアリゼーションと発声分類の両方に信頼性の高いラベルを提供するのに対し、他のプラットフォームではオーディオと/または話者ダイアリゼーションラベルのみを記録できる。
我々は,wav2vec 2.0を用いて,lbファミリーオーディオストリームを用いたより優れたニュアンス結果を得る。
我々は,wav2vec 2.0機能を用いた音声のバガ-オブ-audio-words法を用いて,家族間音声の対話を理解するための高レベル可視化を行う。
我々の高品質な可視化は、ラベル付きLBオーディオとラベルなしLBオーディオの両方において、精神、行動、発達の健康を表わすカテゴリーにおいて、家族の発声相互作用の主要なタイプを捉えている。
関連論文リスト
- AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - AV-TranSpeech: Audio-Visual Robust Speech-to-Speech Translation [55.1650189699753]
音声から音声への直接翻訳(S2ST)は、ある言語から別の言語への変換を目的としており、現在までに顕著な進歩を見せている。
現在のS2STモデルは相変わらずノイズの多い環境での劣化に悩まされ、視覚音声の翻訳に失敗している。
AV-TranSpeechは、中間テキストに依存しない最初の音声-視覚音声-音声合成モデルである。
論文 参考訳(メタデータ) (2023-05-24T17:59:03Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Nonwords Pronunciation Classification in Language Development Tests for
Preschool Children [7.224391516694955]
本研究の目的は,子どもの言語発達が年齢的に適切かどうかを自動評価することである。
本研究の課題は、発話された非単語が正しく発声されたかどうかを判断することである。
特定の言語構造をモデル化する動機付けの異なるアプローチを比較する。
論文 参考訳(メタデータ) (2022-06-16T10:19:47Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z) - Integration of Text and Graph-based Features for Detecting Mental Health
Disorders from Voice [1.5469452301122175]
抑うつ検出のための音声分析に2つの方法が用いられている。
その結果,テキストに基づく音声分類と低レベルおよびグラフベースの音声信号機能からの学習の統合により,うつ病などの精神疾患の検出が向上することが示唆された。
論文 参考訳(メタデータ) (2022-05-14T08:37:19Z) - Low-dimensional representation of infant and adult vocalization
acoustics [2.1826796927092214]
本研究では, スペクトル特徴抽出と教師なし機械学習, 特にUniform Manifold Approximation (UMAP) を用いて, 乳幼児の2次元空間的表現と, 在宅録音から抽出した介護者の発声について検討した。
例えば,乳児の2次元空間内における発声音の分散は3カ月から9か月に増加し,その後9か月から18カ月に減少した。
論文 参考訳(メタデータ) (2022-04-25T17:58:13Z) - Classifying Autism from Crowdsourced Semi-Structured Speech Recordings:
A Machine Learning Approach [0.9945783208680666]
本研究では,家庭環境における自閉症・ニューロタイプ(NT)児の自己記録音声における自閉症検出のための機械学習手法について述べる。
まず、抽出音声の特徴を訓練したランダムフォレスト、スペクトルを訓練した第2の畳み込みニューラルネットワーク(CNN)、そして第3の、最先端のトランスフォーマーベースのASRモデルであるwav2vec 2.0の3つの方法を検討する。
論文 参考訳(メタデータ) (2022-01-04T01:31:02Z) - Automatic Analysis of the Emotional Content of Speech in Daylong
Child-Centered Recordings from a Neonatal Intensive Care Unit [3.7373314439051106]
フィンランドとエストニアの2つの病院から、幼児の音声環境から毎日何百時間もの録音が収集された。
本稿では、当初未発表の大規模実世界の音声データセットを導入し、フィンランドのサブセットを対象とした機能的SERシステムの開発について述べる。
最適性能モデルは73.4%の非重み付き平均リコールの分類性能を達成可能であることを示す。
論文 参考訳(メタデータ) (2021-06-14T11:17:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。