論文の概要: Acoustic to Articulatory Inversion of Speech; Data Driven Approaches, Challenges, Applications, and Future Scope
- arxiv url: http://arxiv.org/abs/2504.13308v1
- Date: Thu, 17 Apr 2025 19:38:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 20:22:35.689215
- Title: Acoustic to Articulatory Inversion of Speech; Data Driven Approaches, Challenges, Applications, and Future Scope
- Title(参考訳): 音声の音響-調音インバージョン : データ駆動型アプローチ, 課題, 応用, 今後の展開
- Authors: Leena G Pillai, D. Muhammad Noorul Mubarak,
- Abstract要約: 本稿では,音声のAAI(Auance-to-Articulatory Inversion)の異なる応用に適用したデータ駆動型アプローチについて述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This review is focused on the data-driven approaches applied in different applications of Acoustic-to-Articulatory Inversion (AAI) of speech. This review paper considered the relevant works published in the last ten years (2011-2021). The selection criteria includes (a) type of AAI - Speaker Dependent and Speaker Independent AAI, (b) objectives of the work - Articulatory approximation, Articulatory Feature space selection and Automatic Speech Recognition (ASR), explore the correlation between acoustic and articulatory features, and framework for Computer-assisted language training, (c) Corpus - Simultaneously recorded speech (wav) and medical imaging models such as ElectroMagnetic Articulography (EMA), Electropalatography (EPG), Laryngography, Electroglottography (EGG), X-ray Cineradiography, Ultrasound, and real-time Magnetic Resonance Imaging (rtMRI), (d) Methods or models - recent works are considered, and therefore all the works are based on machine learning, (e) Evaluation - as AAI is a non-linear regression problem, the performance evaluation is mostly done by Correlation Coefficient (CC), Root Mean Square Error (RMSE), and also considered Mean Square Error (MSE), and Mean Format Error (MFE). The practical application of the AAI model can provide a better and user-friendly interpretable image feedback system of articulatory positions, especially tongue movement. Such trajectory feedback system can be used to provide phonetic, language, and speech therapy for pathological subjects.
- Abstract(参考訳): 本稿では,音声のAAI(Auance-to-Articulatory Inversion)の異なる応用に適用したデータ駆動型アプローチについて述べる。
本稿は、過去10年間(2011-2021年)に出版された関連作品について考察する。
選択基準には
(a)AAIタイプ-話者依存型と話者独立型
b)作品の目的 - 調音的近似、調音的特徴空間選択、自動音声認識(ASR)、音響的特徴と調音的特徴の相関、およびコンピュータ支援言語訓練の枠組み。
(c)コーパス - 同時録音音声(wav)とElectroMagnetic Articulography(EMA)、Electropalatography(EPG)、Laryngography、Electroglottography(EGG)、X線画像、超音波、リアルタイム磁気共鳴画像(rtMRI)などの医用画像モデル
(d)手法やモデル - 最近の作品を考えると、すべての作品が機械学習に基づいています。
(e)AAIは非線形回帰問題であるため、性能評価は主に相関係数(CC)、ルート平均角誤差(RMSE)、平均角誤差(MSE)、平均フォーマット誤差(MFE)によって行われる。
AAIモデルの実践的応用は、音声位置、特に舌の動きのより良く、ユーザフレンドリな解釈可能な画像フィードバックシステムを提供することができる。
このような軌跡フィードバックシステムは, 病的対象に対する音声, 言語, 音声治療に利用することができる。
関連論文リスト
- Comparative Evaluation of Radiomics and Deep Learning Models for Disease Detection in Chest Radiography [0.0]
本研究は,胸部X線撮影における疾患検出のための放射線治療と深層学習によるアプローチの包括的評価である。
新型コロナウイルス、肺不透明症、ウイルス性肺炎に焦点が当てられている。
臨床実習におけるAI駆動診断ツールの統合について報告する。
論文 参考訳(メタデータ) (2025-04-16T16:54:37Z) - NeuroXVocal: Detection and Explanation of Alzheimer's Disease through Non-invasive Analysis of Picture-prompted Speech [4.815952991777717]
NeuroXVocalは、音声分析によってアルツハイマー病(AD)の可能性を分類し、説明する新しい二重成分システムである。
分類コンポーネント(Neuro)は、音声パターンと音声特徴をキャプチャする音響特徴、音声書き起こしから抽出したテキスト特徴、言語パターンを表す事前計算された埋め込みの3つの異なるデータストリームを処理する。
説明可能性コンポーネント(XVocal)は、大規模言語モデルとAD研究文献のドメイン固有の知識ベースを組み合わせた、検索・拡張生成(RAG)アプローチを実装している。
論文 参考訳(メタデータ) (2025-02-14T12:09:49Z) - Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - Can Generative AI Support Patients' & Caregivers' Informational Needs? Towards Task-Centric Evaluation Of AI Systems [0.7124736158080937]
人間の理解と意思決定を中心とする評価パラダイムを開発する。
具体的なタスクにおける人を支援するための生成AIシステムの有用性について検討する。
我々は,放射線技師の反応に対して,最先端の2つの生成AIシステムを評価する。
論文 参考訳(メタデータ) (2024-01-31T23:24:37Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。
この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。
提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文 参考訳(メタデータ) (2023-10-25T08:55:48Z) - An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [80.33783969507458]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。
近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。
これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文 参考訳(メタデータ) (2023-04-17T17:13:42Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - A Review of Published Machine Learning Natural Language Processing
Applications for Protocolling Radiology Imaging [0.02408121010538496]
機械学習(ML)は人工知能(AI)のサブフィールドであり、放射線学におけるその応用は絶えず加速している。
自然言語処理(NLP)は、テキスト解釈タスクのMLと組み合わせることができるが、放射線学にも多くの応用が考えられる。
そのような応用の1つは、臨床放射線学参照を解釈し、適切な撮像技術を選択することを含む放射線学プロトコルの自動化である。
論文 参考訳(メタデータ) (2022-06-23T06:57:33Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Correlation based Multi-phasal models for improved imagined speech EEG
recognition [22.196642357767338]
本研究の目的は,特定の音声単位に対応する音声の動きを,話し,想像,実行しながら記録された多相脳波データに含まれる並列情報から利益を得ることである。
ニューラルネットワークを用いた二相共通表現学習モジュールは、解析フェーズと支援フェーズ間の相関をモデル化する。
提案手法は復号化時の多相データの非可利用性をさらに扱う。
論文 参考訳(メタデータ) (2020-11-04T09:39:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。