論文の概要: Applications of Artificial Intelligence for Cross-language Intelligibility Assessment of Dysarthric Speech
- arxiv url: http://arxiv.org/abs/2501.15858v3
- Date: Tue, 06 May 2025 05:14:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 14:45:09.17818
- Title: Applications of Artificial Intelligence for Cross-language Intelligibility Assessment of Dysarthric Speech
- Title(参考訳): 変形性音声の言語間知能評価における人工知能の応用
- Authors: Eunjung Yeo, Julie Liss, Visar Berisha, David Mortensen,
- Abstract要約: 本解説では, 変形性音声の言語間信頼度評価を推し進めるための概念的枠組みを紹介する。
音声・音声表現に変形音声をエンコードするユニバーサル音声モデルを提案し,それに続いて言語固有の知性評価モデルを提案する。
- 参考スコア(独自算出の注目度): 13.475654818182988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Purpose: Speech intelligibility is a critical outcome in the assessment and management of dysarthria, yet most research and clinical practices have focused on English, limiting their applicability across languages. This commentary introduces a conceptual framework--and a demonstration of how it can be implemented--leveraging artificial intelligence (AI) to advance cross-language intelligibility assessment of dysarthric speech. Method: We propose a two-tiered conceptual framework consisting of a universal speech model that encodes dysarthric speech into acoustic-phonetic representations, followed by a language-specific intelligibility assessment model that interprets these representations within the phonological or prosodic structures of the target language. We further identify barriers to cross-language intelligibility assessment of dysarthric speech, including data scarcity, annotation complexity, and limited linguistic insights into dysarthric speech, and outline potential AI-driven solutions to overcome these challenges. Conclusion: Advancing cross-language intelligibility assessment of dysarthric speech necessitates models that are both efficient and scalable, yet constrained by linguistic rules to ensure accurate and language-sensitive assessment. Recent advances in AI provide the foundational tools to support this integration, shaping future directions toward generalizable and linguistically informed assessment frameworks.
- Abstract(参考訳): 目的: 難聴の評価・管理において, 発話の了解度は重要な結果であるが, 研究・臨床実践の多くは英語に重点を置いており, 言語にまたがる適用性を制限している。
このコメンタリーでは、概念的枠組みを導入し、人工知能(AI)を平均化して、変形性音声の言語間インテリジェンスアセスメントを推し進める。
方法: 音声・音声表現に音声をエンコードする普遍的な音声モデルと, 対象言語の音韻的・韻律的構造の中でこれらの表現を解釈する言語固有の知性評価モデルからなる2階層の概念的枠組みを提案する。
さらに, 難易度, アノテーションの複雑さ, 難聴音声に対する言語的洞察の制限など, 難聴音声の言語間信頼度評価の障壁を明らかにし, これらの課題を克服するためのAI駆動型ソリューションの可能性について概説する。
結論: 変形性音声の言語間インテリジェンス評価の促進は, 正確かつ言語に敏感な評価を確実にするために, 効率的かつスケーラブルでありながら言語規則に制約されたモデルを必要とする。
AIの最近の進歩は、この統合をサポートするための基礎的なツールを提供し、一般化可能で言語的にインフォメーションされたアセスメントフレームワークに向けた将来の方向性を形作っている。
関連論文リスト
- CogBench: A Large Language Model Benchmark for Multilingual Speech-Based Cognitive Impairment Assessment [13.74065648648307]
音声に基づく認知障害評価のための大規模言語モデルの言語間およびサイト間一般化性を評価するための最初のベンチマークであるCagBenchを提案する。
以上の結果から,従来のディープラーニングモデルはドメイン間で変換されると大幅に劣化することがわかった。
本研究は,臨床的に有用で言語学的に堅牢な音声に基づく認知評価ツールを構築するための重要なステップを提供する。
論文 参考訳(メタデータ) (2025-08-05T12:06:16Z) - Machine-Facing English: Defining a Hybrid Register Shaped by Human-AI Discourse [3.665768771606006]
マシン・フェーシング・イングリッシュ(MFE)は、AIインターロケータの存在拡大に日々の言語を適応させることによって形成された創発的なレジスタである。
本研究は,ヒトとAIの相互作用が統語的剛性,実践的単純化,超明示的表現を如何に正規化するかを追究する。
論文 参考訳(メタデータ) (2025-05-29T03:22:39Z) - Exploring Generative Error Correction for Dysarthric Speech Recognition [12.584296717901116]
本稿では,InterSPEECH 2025における音声アクセシビリティ・プロジェクト・チャレンジのための2段階フレームワークを提案する。
モデルスケールとトレーニング戦略の異なる構成を評価し、特定の仮説選択を取り入れて転写精度を向上させる。
変形性音声認識における音響モデルと言語モデリングの相補的役割について考察する。
論文 参考訳(メタデータ) (2025-05-26T16:06:31Z) - Speech-IFEval: Evaluating Instruction-Following and Quantifying Catastrophic Forgetting in Speech-Aware Language Models [49.1574468325115]
本稿では,命令追従能力を評価するための評価フレームワークであるSpeech-IFevalを紹介する。
近年のSLMは,音声認識を大規模言語モデル (LLM) と統合し,音声中心の訓練によるテキスト能力の低下を招いている。
以上の結果から, SLM はテキストベースの LLM よりもはるかに高い性能を示し, 基本命令にも耐え難いことが示唆された。
論文 参考訳(メタデータ) (2025-05-25T08:37:55Z) - Inclusivity of AI Speech in Healthcare: A Decade Look Back [0.0]
AI音声認識技術の医療への統合は、臨床と患者-研究者間のコミュニケーションに革命をもたらす可能性がある。
しかし,本研究では,データセットや研究が高ソース言語,標準アクセント,狭い人口集団を好んでいるため,傾きの差が顕著である。
本稿では、医療におけるAI音声技術への公平なアクセスを確保するために、包括的データセット設計、バイアス軽減研究、およびポリシーフレームワークの緊急性を強調した。
論文 参考訳(メタデータ) (2025-05-15T10:03:05Z) - Building A Unified AI-centric Language System: analysis, framework and future work [0.0]
本稿では,AI中心の統一言語システムの設計について考察する。
多様な自然言語入力を合理化されたAIフレンドリーな言語に翻訳するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-06T20:32:57Z) - IOLBENCH: Benchmarking LLMs on Linguistic Reasoning [8.20398036986024]
IOL(International Linguistics Olympiad)問題に基づく新しいベンチマークであるIOLBENCHを紹介する。
このデータセットは、文法、形態学、音韻学、意味論をテストする様々な問題を含んでいる。
最も先進的なモデルでさえ、言語的な複雑さの複雑さを扱うのに苦労している。
論文 参考訳(メタデータ) (2025-01-08T03:15:10Z) - Devising a Set of Compact and Explainable Spoken Language Feature for Screening Alzheimer's Disease [52.46922921214341]
アルツハイマー病(AD)は高齢化社会において最も重要な健康問題の一つとなっている。
我々は,大言語モデル(LLM)とTF-IDFモデルの視覚的機能を活用する,説明可能な効果的な機能セットを考案した。
当社の新機能は、自動ADスクリーニングの解釈可能性を高めるステップバイステップで説明し、解釈することができる。
論文 参考訳(メタデータ) (2024-11-28T05:23:22Z) - A Tutorial on Clinical Speech AI Development: From Data Collection to Model Validation [19.367198670893778]
本稿では,臨床音声AIの堅牢な開発に必要な要素について概説する。
目的は、入力と出力がより解釈可能で臨床的に意味のある音声の側面にリンクするモデルの構築に関する包括的なガイダンスを提供することである。
論文 参考訳(メタデータ) (2024-10-29T00:58:15Z) - A Survey on Lexical Ambiguity Detection and Word Sense Disambiguation [0.0]
本稿では自然言語処理(NLP)分野における言語におけるあいまいさの理解と解決に焦点を当てた手法について検討する。
ディープラーニング技術から、WordNetのような語彙的リソースや知識グラフの活用まで、さまざまなアプローチを概説している。
本研究は, 感覚アノテートコーパスの不足, 非公式な臨床テキストの複雑さなど, この分野における永続的な課題を明らかにした。
論文 参考訳(メタデータ) (2024-03-24T12:58:48Z) - Igniting Language Intelligence: The Hitchhiker's Guide From
Chain-of-Thought Reasoning to Language Agents [80.5213198675411]
大規模言語モデル(LLM)は言語知能の分野を劇的に拡張した。
LLMは興味をそそるチェーン・オブ・シークレット(CoT)推論技術を活用し、答えを導き出す途中の中間ステップを定式化しなければならない。
最近の研究は、自律言語エージェントの開発を促進するためにCoT推論手法を拡張している。
論文 参考訳(メタデータ) (2023-11-20T14:30:55Z) - Are Structural Concepts Universal in Transformer Language Models?
Towards Interpretable Cross-Lingual Generalization [27.368684663279463]
本稿では,言語間の概念対応を明確に整合させ,言語間の一般化を促進する可能性について検討する。
言語構文の側面をテストベッドとして,43言語を解析した結果,高い整合性を示した。
本稿では,メタラーニングに基づく概念空間の整合学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-19T14:50:51Z) - Rethinking the Evaluating Framework for Natural Language Understanding
in AI Systems: Language Acquisition as a Core for Future Metrics [0.0]
人工知能(AI)の急成長分野において、自然言語処理(NLP)における大規模言語モデル(LLM)の先例のない進歩は、従来の機械学習のメトリクスのアプローチ全体を再考する機会を提供する。
本稿では,確立されたチューリングテストから,言語習得を基盤とした全包含フレームワークへのパラダイムシフトを提案する。
論文 参考訳(メタデータ) (2023-09-21T11:34:52Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - BabySLM: language-acquisition-friendly benchmark of self-supervised
spoken language models [56.93604813379634]
音声表現を学習するための自己指導技術は、人間のラベルを必要とせずに、音声への露出から言語能力を高めることが示されている。
語彙および構文レベルで音声言語モデルを探索するために,言語習得に親しみやすいベンチマークを提案する。
テキストと音声のギャップを埋めることと、クリーンな音声とその内話のギャップを埋めることである。
論文 参考訳(メタデータ) (2023-06-02T12:54:38Z) - SHINE: Syntax-augmented Hierarchical Interactive Encoder for Zero-shot
Cross-lingual Information Extraction [47.88887327545667]
本研究では,構文拡張型階層型インタラクティブエンコーダ(SHINE)を提案する。
Shineは、特徴とコンテキスト情報の間の相補的な情報をインタラクティブにキャプチャすることができる。
3つのIEタスクと4つのベンチマークで7つの言語で実験を行い、提案手法の有効性と一般化能力を検証した。
論文 参考訳(メタデータ) (2023-05-21T08:02:06Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z) - Distributed Linguistic Representations in Decision Making: Taxonomy, Key
Elements and Applications, and Challenges in Data Science and Explainable
Artificial Intelligence [26.908909011805502]
本稿では,既存の分散言語表現の分類について述べる。
意思決定における分散言語情報処理の重要要素について概観する。
次に、データサイエンスと説明可能な人工知能の観点から、現在進行中の課題と今後の研究方向性について論じる。
論文 参考訳(メタデータ) (2020-08-04T13:13:59Z) - Semantics-Aware Inferential Network for Natural Language Understanding [79.70497178043368]
このようなモチベーションを満たすために,セマンティックス対応推論ネットワーク(SAIN)を提案する。
SAINの推論モジュールは、明示的な文脈的セマンティクスを補完的な入力として、セマンティクス上の一連の推論ステップを可能にする。
本モデルでは,機械読解や自然言語推論など11タスクの大幅な改善を実現している。
論文 参考訳(メタデータ) (2020-04-28T07:24:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。