論文の概要: Towards disentangling the contributions of articulation and acoustics in multimodal phoneme recognition
- arxiv url: http://arxiv.org/abs/2505.24059v1
- Date: Thu, 29 May 2025 23:03:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.694196
- Title: Towards disentangling the contributions of articulation and acoustics in multimodal phoneme recognition
- Title(参考訳): マルチモーダル音素認識における調音と音響の寄与の解消に向けて
- Authors: Sean Foley, Hong Nguyen, Jihwan Lee, Sudarsana Reddy Kadiri, Dani Byrd, Louis Goldstein, Shrikanth Narayanan,
- Abstract要約: 我々は,音声・ビデオモデルと,長めの単一話者MRIコーパスを用いた音素認識のためのマルチモーダルモデルを開発する。
音声モデルとマルチモーダルモデルは,異なる音韻法クラスで類似した性能を示すが,調音箇所では異なることを示す。
- 参考スコア(独自算出の注目度): 27.703362534946216
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although many previous studies have carried out multimodal learning with real-time MRI data that captures the audio-visual kinematics of the vocal tract during speech, these studies have been limited by their reliance on multi-speaker corpora. This prevents such models from learning a detailed relationship between acoustics and articulation due to considerable cross-speaker variability. In this study, we develop unimodal audio and video models as well as multimodal models for phoneme recognition using a long-form single-speaker MRI corpus, with the goal of disentangling and interpreting the contributions of each modality. Audio and multimodal models show similar performance on different phonetic manner classes but diverge on places of articulation. Interpretation of the models' latent space shows similar encoding of the phonetic space across audio and multimodal models, while the models' attention weights highlight differences in acoustic and articulatory timing for certain phonemes.
- Abstract(参考訳): 音声中の声道の聴覚・視覚運動をとらえるリアルタイムMRIデータを用いたマルチモーダル学習は,これまで多くの研究が実施されてきたが,これらの研究は,マルチスピーカコーパスへの依存によって制限されている。
これにより、このようなモデルは、話者間の変動がかなり大きいため、音響と調音の詳細な関係を学習することができない。
本研究では,音素認識のための音声・ビデオモデルと,長めの単一話者MRIコーパスを用いたマルチモーダルモデルを開発し,各モーダルの寄与を解消し,解釈することを目的とした。
音響モデルとマルチモーダルモデルは、異なる音韻法クラスで同様の性能を示すが、調音の場所によって異なる。
モデルの潜在空間の解釈は、音声およびマルチモーダルモデル間での音声空間の類似の符号化を示し、一方でモデルの重み付けは特定の音素の音響的タイミングと調音的タイミングの違いを強調している。
関連論文リスト
- Seeing Sound: Assembling Sounds from Visuals for Audio-to-Image Generation [6.169364905804677]
オーディオから画像への生成モデルの訓練には、意味的に整合した多様なオーディオと視覚のペアが多数必要である。
本稿では,様々な高品質で不整合なユニモーダル原点のインスタンスを人工的にペアリングできる,スケーラブルな画像ソリフィケーションフレームワークを提案する。
提案手法の有効性を示すため,本手法では,音素化画像を用いて,最先端技術に対して競争力のある音声画像生成モデルを訓練する。
論文 参考訳(メタデータ) (2025-01-09T18:13:57Z) - Integrating Audio, Visual, and Semantic Information for Enhanced Multimodal Speaker Diarization [25.213694510527436]
既存の話者ダイアリゼーションシステムの多くは、単調な音響情報のみに依存している。
本稿では,音声,視覚,意味的手がかりを併用して話者ダイアリゼーションを向上する新しいマルチモーダル手法を提案する。
我々の手法は、最先端の話者ダイアリゼーション法より一貫して優れている。
論文 参考訳(メタデータ) (2024-08-22T03:34:03Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - MMoE: Enhancing Multimodal Models with Mixtures of Multimodal Interaction Experts [92.76662894585809]
MMOE(Multimodal Mixtures of Experts)と呼ばれるマルチモーダルモデルの拡張手法を導入する。
MMoEは様々な種類のモデルに適用でき、改善できる。
論文 参考訳(メタデータ) (2023-11-16T05:31:21Z) - A Comprehensive Multi-scale Approach for Speech and Dynamics Synchrony in Talking Head Generation [16.033455552126348]
マルチスケール音声-視覚同期損失とマルチスケール自動回帰GANを提案する。
マルチモーダル入力ピラミッド上でシンセサイザーモデルのスタックをトレーニングし、これらのモデルをマルチスケールジェネレータネットワークのガイダンスとして利用する。
実験により、頭部運動の動的品質の最先端よりも顕著な改善が示された。
論文 参考訳(メタデータ) (2023-07-04T08:29:59Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - Accommodating Audio Modality in CLIP for Multimodal Processing [48.83906067348211]
視覚言語モデルCLIPを拡張し、視覚言語モデルAudioのマルチモーダル処理におけるオーディオモダリティに対応する。
具体的には、モーダル間およびモーダル内コントラスト学習を用いて、オーディオと他のモーダル間の相関について検討する。
提案するCLIP4VLAモデルは,ビデオ検索やビデオキャプションなど,さまざまな下流タスクで検証される。
論文 参考訳(メタデータ) (2023-03-12T06:57:01Z) - Look\&Listen: Multi-Modal Correlation Learning for Active Speaker
Detection and Speech Enhancement [18.488808141923492]
ADENetは,音声・視覚モデルの共同学習による話者検出と音声強調を実現するために提案されている。
聴覚と視覚ストリームの相互関係は,マルチタスク学習の課題に対して有望な解決法である。
論文 参考訳(メタデータ) (2022-03-04T09:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。