Fugu-MT 論文翻訳(概要): Visualizations of Complex Sequences of Family-Infant Vocalizations Using Bag-of-Audio-Words Approach Based on Wav2vec 2.0 Features

論文の概要: Visualizations of Complex Sequences of Family-Infant Vocalizations Using Bag-of-Audio-Words Approach Based on Wav2vec 2.0 Features

arxiv url: http://arxiv.org/abs/2203.15183v1
Date: Tue, 29 Mar 2022 01:46:14 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-30 16:40:55.334996
Title: Visualizations of Complex Sequences of Family-Infant Vocalizations Using Bag-of-Audio-Words Approach Based on Wav2vec 2.0 Features
Title（参考訳）: wav2vec 2.0 特徴に基づくbag-of-audio-words アプローチによる家族性発声の複雑なシーケンスの可視化
Authors: Jialu Li, Mark Hasegawa-Johnson, Nancy L. McElwain
Abstract要約: 米国では、2-8歳の子供の約15-17%が、少なくとも1つの精神、行動、発達障害を診断していると推定されている。これまでの研究では、携帯電話、ビデオ、LENAのような音声のみの記録装置を用いて収集された幼児および/または親の発声の分類において、高度なMLモデルが優れていることが示されている。我々は、wav2vec 2.0機能を持つbaba-of-audio-words法を用いて、家族と幼児の発声相互作用を理解するための高レベルな可視化を作成する。
参考スコア（独自算出の注目度）: 41.07344746812834
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the U.S., approximately 15-17% of children 2-8 years of age are estimated to have at least one diagnosed mental, behavioral or developmental disorder. However, such disorders often go undiagnosed, and the ability to evaluate and treat disorders in the first years of life is limited. To analyze infant developmental changes, previous studies have shown advanced ML models excel at classifying infant and/or parent vocalizations collected using cell phone, video, or audio-only recording device like LENA. In this study, we pilot test the audio component of a new infant wearable multi-modal device that we have developed called LittleBeats (LB). LB audio pipeline is advanced in that it provides reliable labels for both speaker diarization and vocalization classification tasks, compared with other platforms that only record audio and/or provide speaker diarization labels. We leverage wav2vec 2.0 to obtain superior and more nuanced results with the LB family audio stream. We use a bag-of-audio-words method with wav2vec 2.0 features to create high-level visualizations to understand family-infant vocalization interactions. We demonstrate that our high-quality visualizations capture major types of family vocalization interactions, in categories indicative of mental, behavioral, and developmental health, for both labeled and unlabeled LB audio.
Abstract（参考訳）: 米国では、2-8歳児の約15-17%が少なくとも1人の精神障害、行動障害、発達障害と診断されている。しかし、そのような疾患はしばしば診断されず、初年の障害を評価し治療する能力は限られている。幼児の発達変化を分析するために、これまでの研究では、lenaのような携帯電話、ビデオ、音声のみの記録装置を用いて収集された幼児および/または親の発声の分類に優れた高度なmlモデルが示されている。本研究では,LittleBeats (LB) と呼ばれる乳幼児用ウェアラブルマルチモーダルデバイスの音声成分を試験的に検討した。 LBオーディオパイプラインは、話者ダイアリゼーションと発声分類の両方に信頼性の高いラベルを提供するのに対し、他のプラットフォームではオーディオと/または話者ダイアリゼーションラベルのみを記録できる。我々は,wav2vec 2.0を用いて,lbファミリーオーディオストリームを用いたより優れたニュアンス結果を得る。我々は,wav2vec 2.0機能を用いた音声のバガ-オブ-audio-words法を用いて,家族間音声の対話を理解するための高レベル可視化を行う。我々の高品質な可視化は、ラベル付きLBオーディオとラベルなしLBオーディオの両方において、精神、行動、発達の健康を表わすカテゴリーにおいて、家族の発声相互作用の主要なタイプを捉えている。

関連論文リスト

K-Function: Joint Pronunciation Transcription and Feedback for Evaluating Kids Language Function [10.918072285423706]
K-Functionは、正確なサブワードの書き起こし、客観的スコアリング、動作可能なフィードバックを組み合わせた統合フレームワークである。 Kids-WFSTはMySTで1.39%、Multitudesで8.61%の音素誤りを達成した。
論文参考訳（メタデータ） (2025-07-03T08:05:02Z)
Who Said What WSW 2.0? Enhanced Automated Analysis of Preschool Classroom Speech [24.034728707160497]
本稿では,幼児教室における音声対話の分析を行うためのフレームワークWSW2.0を提案する。 WSW2.0は、重み付きF1スコアが.845、精度が.846、話者分類のための誤り訂正Kappaが.672に達する(子対教師) このフレームワークを,2年間および1,592時間以上の教室オーディオ録音を対象とする広範囲なデータセットに適用する。
論文参考訳（メタデータ） (2025-05-15T05:21:34Z)
FlowDubber: Movie Dubbing with LLM-based Semantic-aware Learning and Flow Matching based Voice Enhancing [78.83988199306901]
Movie Dubbingは、スクリプトを、時間的および感情的な両方の面において、所定の映画クリップと整合するスピーチに変換することを目的としている。既存の手法は、リップシンクと音響品質の重要性を無視しながら、単語エラー率の低減に重点を置いている。本研究では,大言語モデルと二重コントラスト整合を組み込むことで,高品質な音声・視覚同期と発音を実現するFlowDubberを提案する。
論文参考訳（メタデータ） (2025-05-02T13:30:19Z)
Self-Supervised Models for Phoneme Recognition: Applications in Children's Speech for Reading Learning [9.670752318129326]
まず, フランス語音声における音素認識に適応したwav2vec 2.0, HuBERT, WavLMモデルを比較した。次に,子音の微調整中に変圧器ブロックを解凍することで適応する。 We show that WavLM base+ is more robust to various reading task and noise levels。
論文参考訳（メタデータ） (2025-03-06T18:57:16Z)
Teaching Wav2Vec2 the Language of the Brain [13.094509587996082]
我々は、Wav2Vec2が学習したパターンが脳データに転送可能であることを示す。 We run full-tuning with pre-trained weights for Wav2Vec2, training 'from scratch' without pre-trained weights, and the pre-trained Wav2Vec2 and training the BFE for 45 different BFE architectures。
論文参考訳（メタデータ） (2025-01-16T10:37:07Z)
Large Language Model-Enhanced Interactive Agent for Public Education on Newborn Auricular Deformities [14.396700717621085]
耳介変形は、心身障害や聴覚障害の長期的悪影響を持つ新生児によく見られる。 Baidu Inc.のErnieの大規模言語モデルの助けを借りて、対話型エージェントの実現を導き出した。アップロードされた画像に対応する耳介変形の種類を検出するのに十分な知能である。耳介変形の知識の普及に関して、このエージェントは両親に病気の専門的な提案をすることができる。
論文参考訳（メタデータ） (2024-09-04T01:54:58Z)
Qwen2-Audio Technical Report [73.94975476533989]
本稿では,Qwen2-Audioと呼ばれる大規模オーディオ言語モデルであるQwen-Audioの最新動向を紹介する。 Qwen2-Audioは、様々な音声信号入力を受け入れ、音声解析や音声指示に対する直接テキスト応答を行うことができる。我々はQwen2-Audioの指示追従能力を高め、音声チャットと音声分析のための2つの異なる音声対話モードを実装した。
論文参考訳（メタデータ） (2024-07-15T14:38:09Z)
AV-TranSpeech: Audio-Visual Robust Speech-to-Speech Translation [55.1650189699753]
音声から音声への直接翻訳(S2ST)は、ある言語から別の言語への変換を目的としており、現在までに顕著な進歩を見せている。現在のS2STモデルは相変わらずノイズの多い環境での劣化に悩まされ、視覚音声の翻訳に失敗している。 AV-TranSpeechは、中間テキストに依存しない最初の音声-視覚音声-音声合成モデルである。
論文参考訳（メタデータ） (2023-05-24T17:59:03Z)
Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文参考訳（メタデータ） (2023-01-30T04:44:34Z)
AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文参考訳（メタデータ） (2022-09-30T10:17:05Z)
Toward a realistic model of speech processing in the brain with self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。 We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文参考訳（メタデータ） (2022-06-03T17:01:46Z)
Integration of Text and Graph-based Features for Detecting Mental Health Disorders from Voice [1.5469452301122175]
抑うつ検出のための音声分析に2つの方法が用いられている。その結果,テキストに基づく音声分類と低レベルおよびグラフベースの音声信号機能からの学習の統合により,うつ病などの精神疾患の検出が向上することが示唆された。
論文参考訳（メタデータ） (2022-05-14T08:37:19Z)
Low-dimensional representation of infant and adult vocalization acoustics [2.1826796927092214]
本研究では, スペクトル特徴抽出と教師なし機械学習, 特にUniform Manifold Approximation (UMAP) を用いて, 乳幼児の2次元空間的表現と, 在宅録音から抽出した介護者の発声について検討した。例えば,乳児の2次元空間内における発声音の分散は3カ月から9か月に増加し,その後9か月から18カ月に減少した。
論文参考訳（メタデータ） (2022-04-25T17:58:13Z)
Classifying Autism from Crowdsourced Semi-Structured Speech Recordings: A Machine Learning Approach [0.9945783208680666]
本研究では,家庭環境における自閉症・ニューロタイプ(NT)児の自己記録音声における自閉症検出のための機械学習手法について述べる。まず、抽出音声の特徴を訓練したランダムフォレスト、スペクトルを訓練した第2の畳み込みニューラルネットワーク(CNN)、そして第3の、最先端のトランスフォーマーベースのASRモデルであるwav2vec 2.0の3つの方法を検討する。
論文参考訳（メタデータ） (2022-01-04T01:31:02Z)
Automatic Analysis of the Emotional Content of Speech in Daylong Child-Centered Recordings from a Neonatal Intensive Care Unit [3.7373314439051106]
フィンランドとエストニアの2つの病院から、幼児の音声環境から毎日何百時間もの録音が収集された。本稿では、当初未発表の大規模実世界の音声データセットを導入し、フィンランドのサブセットを対象とした機能的SERシステムの開発について述べる。最適性能モデルは73.4%の非重み付き平均リコールの分類性能を達成可能であることを示す。
論文参考訳（メタデータ） (2021-06-14T11:17:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。