論文の概要: Audio-Vision Contrastive Learning for Phonological Class Recognition
- arxiv url: http://arxiv.org/abs/2507.17682v1
- Date: Wed, 23 Jul 2025 16:44:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:15.090923
- Title: Audio-Vision Contrastive Learning for Phonological Class Recognition
- Title(参考訳): 音韻クラス認識のための音響視覚コントラスト学習
- Authors: Daiqi Liu, Tomás Arias-Vergara, Jana Hutter, Andreas Maier, Paula Andrea Pérez-Toro,
- Abstract要約: 実時間磁気共鳴画像(rtMRI)と音声信号を組み合わせて3つの重要な調音次元を分類する多モードディープラーニングフレームワークを提案する。
USC-TIMITデータセットによる実験結果から,我々のコントラスト学習に基づくアプローチが最先端の性能を達成することが示された。
- 参考スコア(独自算出の注目度): 6.476789653980653
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate classification of articulatory-phonological features plays a vital role in understanding human speech production and developing robust speech technologies, particularly in clinical contexts where targeted phonemic analysis and therapy can improve disease diagnosis accuracy and personalized rehabilitation. In this work, we propose a multimodal deep learning framework that combines real-time magnetic resonance imaging (rtMRI) and speech signals to classify three key articulatory dimensions: manner of articulation, place of articulation, and voicing. We perform classification on 15 phonological classes derived from the aforementioned articulatory dimensions and evaluate the system with four audio/vision configurations: unimodal rtMRI, unimodal audio signals, multimodal middle fusion, and contrastive learning-based audio-vision fusion. Experimental results on the USC-TIMIT dataset show that our contrastive learning-based approach achieves state-of-the-art performance, with an average F1-score of 0.81, representing an absolute increase of 0.23 over the unimodal baseline. The results confirm the effectiveness of contrastive representation learning for multimodal articulatory analysis. Our code and processed dataset will be made publicly available at https://github.com/DaE-plz/AC_Contrastive_Phonology to support future research.
- Abstract(参考訳): 音声・音声学的特徴の正確な分類は、人間の音声生成を理解する上で重要な役割を担い、特に標的音韻解析と治療が疾患の診断精度とパーソナライズされたリハビリテーションを改善する臨床状況において、堅牢な音声技術を開発する上で重要である。
本研究では,実時間磁気共鳴画像(rtMRI)と音声信号を組み合わせた多モードディープラーニングフレームワークを提案する。
上記から導いた15の音韻クラスを分類し, 音声・視覚構成の4つの特徴として, 単音節rtMRI, 単音節音声信号, マルチモーダルミドルフュージョン, コントラッシブ学習に基づくオーディオビジョンフュージョンの4つについて評価した。
USC-TIMITデータセットによる実験結果によると、我々の対照的な学習に基づくアプローチは、平均F1スコアが0.81で最先端のパフォーマンスを達成する。
その結果,マルチモーダル調音解析におけるコントラスト表現学習の有効性が検証された。
私たちのコードと処理されたデータセットは、将来の研究をサポートするためにhttps://github.com/DaE-plz/AC_Contrastive_Phonologyで公開されます。
関連論文リスト
- AudioJudge: Understanding What Works in Large Audio Model Based Speech Evaluation [55.607230723223346]
本研究は,Large Audio Model (LAM) をAudioJudgeの裁判官として体系的に研究し,両課題に対処する統一評価フレームワークを提供することができるかどうかを検討する。
本稿では、発音、発話速度、話者識別、音声品質、自動ベンチマークのためのシステムレベルの人間の嗜好シミュレーションなど、音声特徴検出タスクにまたがるAudioJudgeについて検討する。
本稿では,多視点アンサンブルAudioJudgeを導入し,音声評価を語彙内容,音声品質,パラ言語特徴の専門判断者に分解し,人間の嗜好と最大0.91のスピアマン相関を達成させる手法を提案する。
論文 参考訳(メタデータ) (2025-07-17T00:39:18Z) - PiCME: Pipeline for Contrastive Modality Evaluation and Encoding in the MIMIC Dataset [16.263862005367667]
マルチモーダル深層学習は、多様な患者データを統合することで臨床予測を改善することを約束する。
対照的な学習は、タスク間で再利用可能な統一表現を生成することによって、この統合を促進する。
PiCMEはMIMICのすべてのモダリティの組み合わせでコントラスト学習をスケールした最初の企業である。
論文 参考訳(メタデータ) (2025-07-03T20:45:37Z) - Acoustic to Articulatory Inversion of Speech; Data Driven Approaches, Challenges, Applications, and Future Scope [0.0]
本稿では,音声のAAI(Auance-to-Articulatory Inversion)の異なる応用に適用したデータ駆動型アプローチについて述べる。
論文 参考訳(メタデータ) (2025-04-17T19:38:50Z) - A Speech-to-Video Synthesis Approach Using Spatio-Temporal Diffusion for Vocal Tract MRI [22.92611067883196]
音声信号から声道の視覚を生成するための音声・ビデオ生成フレームワークを提案する。
本フレームワークは,まずRT-/cine-MRIシーケンスと音声サンプルを前処理し,時間的アライメントを実現する。
合成ビデオにおける声道運動の解析と比較により,健常者および舌癌患者の声道運動に関する枠組みについて検討した。
論文 参考訳(メタデータ) (2025-03-15T12:12:50Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。
この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。
提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文 参考訳(メタデータ) (2023-10-25T08:55:48Z) - Deep Feature Learning for Medical Acoustics [78.56998585396421]
本研究の目的は,医療音響の課題における学習内容の比較である。
ヒトの呼吸音と心臓の鼓動を健康的または病態の影響の2つのカテゴリに分類する枠組みが実装されている。
論文 参考訳(メタデータ) (2022-08-05T10:39:37Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - EMA2S: An End-to-End Multimodal Articulatory-to-Speech System [26.491629363635454]
EMA2Sは,マルチモーダル音声合成システムである。
ニューラルネットワークベースのボコーダとマルチモーダルなジョイントトレーニングを併用し,スペクトログラム,メル-スペクトログラム,深部特徴を取り入れた。
論文 参考訳(メタデータ) (2021-02-07T12:14:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。