論文の概要: Visualizations of Complex Sequences of Family-Infant Vocalizations Using
Bag-of-Audio-Words Approach Based on Wav2vec 2.0 Features
- arxiv url: http://arxiv.org/abs/2203.15183v1
- Date: Tue, 29 Mar 2022 01:46:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 16:40:55.334996
- Title: Visualizations of Complex Sequences of Family-Infant Vocalizations Using
Bag-of-Audio-Words Approach Based on Wav2vec 2.0 Features
- Title(参考訳): wav2vec 2.0 特徴に基づくbag-of-audio-words アプローチによる家族性発声の複雑なシーケンスの可視化
- Authors: Jialu Li, Mark Hasegawa-Johnson, Nancy L. McElwain
- Abstract要約: 米国では、2-8歳の子供の約15-17%が、少なくとも1つの精神、行動、発達障害を診断していると推定されている。
これまでの研究では、携帯電話、ビデオ、LENAのような音声のみの記録装置を用いて収集された幼児および/または親の発声の分類において、高度なMLモデルが優れていることが示されている。
我々は、wav2vec 2.0機能を持つbaba-of-audio-words法を用いて、家族と幼児の発声相互作用を理解するための高レベルな可視化を作成する。
- 参考スコア(独自算出の注目度): 41.07344746812834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the U.S., approximately 15-17% of children 2-8 years of age are estimated
to have at least one diagnosed mental, behavioral or developmental disorder.
However, such disorders often go undiagnosed, and the ability to evaluate and
treat disorders in the first years of life is limited. To analyze infant
developmental changes, previous studies have shown advanced ML models excel at
classifying infant and/or parent vocalizations collected using cell phone,
video, or audio-only recording device like LENA. In this study, we pilot test
the audio component of a new infant wearable multi-modal device that we have
developed called LittleBeats (LB). LB audio pipeline is advanced in that it
provides reliable labels for both speaker diarization and vocalization
classification tasks, compared with other platforms that only record audio
and/or provide speaker diarization labels. We leverage wav2vec 2.0 to obtain
superior and more nuanced results with the LB family audio stream. We use a
bag-of-audio-words method with wav2vec 2.0 features to create high-level
visualizations to understand family-infant vocalization interactions. We
demonstrate that our high-quality visualizations capture major types of family
vocalization interactions, in categories indicative of mental, behavioral, and
developmental health, for both labeled and unlabeled LB audio.
- Abstract(参考訳): 米国では、2-8歳児の約15-17%が少なくとも1人の精神障害、行動障害、発達障害と診断されている。
しかし、そのような疾患はしばしば診断されず、初年の障害を評価し治療する能力は限られている。
幼児の発達変化を分析するために、これまでの研究では、lenaのような携帯電話、ビデオ、音声のみの記録装置を用いて収集された幼児および/または親の発声の分類に優れた高度なmlモデルが示されている。
本研究では,LittleBeats (LB) と呼ばれる乳幼児用ウェアラブルマルチモーダルデバイスの音声成分を試験的に検討した。
LBオーディオパイプラインは、話者ダイアリゼーションと発声分類の両方に信頼性の高いラベルを提供するのに対し、他のプラットフォームではオーディオと/または話者ダイアリゼーションラベルのみを記録できる。
我々は,wav2vec 2.0を用いて,lbファミリーオーディオストリームを用いたより優れたニュアンス結果を得る。
我々は,wav2vec 2.0機能を用いた音声のバガ-オブ-audio-words法を用いて,家族間音声の対話を理解するための高レベル可視化を行う。
我々の高品質な可視化は、ラベル付きLBオーディオとラベルなしLBオーディオの両方において、精神、行動、発達の健康を表わすカテゴリーにおいて、家族の発声相互作用の主要なタイプを捉えている。
関連論文リスト
- Teaching Wav2Vec2 the Language of the Brain [13.094509587996082]
我々は、Wav2Vec2が学習したパターンが脳データに転送可能であることを示す。
We run full-tuning with pre-trained weights for Wav2Vec2, training 'from scratch' without pre-trained weights, and the pre-trained Wav2Vec2 and training the BFE for 45 different BFE architectures。
論文 参考訳(メタデータ) (2025-01-16T10:37:07Z) - Large Language Model-Enhanced Interactive Agent for Public Education on Newborn Auricular Deformities [14.396700717621085]
耳介変形は、心身障害や聴覚障害の長期的悪影響を持つ新生児によく見られる。
Baidu Inc.のErnieの大規模言語モデルの助けを借りて、対話型エージェントの実現を導き出した。
アップロードされた画像に対応する耳介変形の種類を検出するのに十分な知能である。
耳介変形の知識の普及に関して、このエージェントは両親に病気の専門的な提案をすることができる。
論文 参考訳(メタデータ) (2024-09-04T01:54:58Z) - Qwen2-Audio Technical Report [73.94975476533989]
本稿では,Qwen2-Audioと呼ばれる大規模オーディオ言語モデルであるQwen-Audioの最新動向を紹介する。
Qwen2-Audioは、様々な音声信号入力を受け入れ、音声解析や音声指示に対する直接テキスト応答を行うことができる。
我々はQwen2-Audioの指示追従能力を高め、音声チャットと音声分析のための2つの異なる音声対話モードを実装した。
論文 参考訳(メタデータ) (2024-07-15T14:38:09Z) - AV-TranSpeech: Audio-Visual Robust Speech-to-Speech Translation [55.1650189699753]
音声から音声への直接翻訳(S2ST)は、ある言語から別の言語への変換を目的としており、現在までに顕著な進歩を見せている。
現在のS2STモデルは相変わらずノイズの多い環境での劣化に悩まされ、視覚音声の翻訳に失敗している。
AV-TranSpeechは、中間テキストに依存しない最初の音声-視覚音声-音声合成モデルである。
論文 参考訳(メタデータ) (2023-05-24T17:59:03Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z) - Integration of Text and Graph-based Features for Detecting Mental Health
Disorders from Voice [1.5469452301122175]
抑うつ検出のための音声分析に2つの方法が用いられている。
その結果,テキストに基づく音声分類と低レベルおよびグラフベースの音声信号機能からの学習の統合により,うつ病などの精神疾患の検出が向上することが示唆された。
論文 参考訳(メタデータ) (2022-05-14T08:37:19Z) - Low-dimensional representation of infant and adult vocalization
acoustics [2.1826796927092214]
本研究では, スペクトル特徴抽出と教師なし機械学習, 特にUniform Manifold Approximation (UMAP) を用いて, 乳幼児の2次元空間的表現と, 在宅録音から抽出した介護者の発声について検討した。
例えば,乳児の2次元空間内における発声音の分散は3カ月から9か月に増加し,その後9か月から18カ月に減少した。
論文 参考訳(メタデータ) (2022-04-25T17:58:13Z) - Classifying Autism from Crowdsourced Semi-Structured Speech Recordings:
A Machine Learning Approach [0.9945783208680666]
本研究では,家庭環境における自閉症・ニューロタイプ(NT)児の自己記録音声における自閉症検出のための機械学習手法について述べる。
まず、抽出音声の特徴を訓練したランダムフォレスト、スペクトルを訓練した第2の畳み込みニューラルネットワーク(CNN)、そして第3の、最先端のトランスフォーマーベースのASRモデルであるwav2vec 2.0の3つの方法を検討する。
論文 参考訳(メタデータ) (2022-01-04T01:31:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。