Fugu-MT 論文翻訳(概要): Voice EHR: Introducing Multimodal Audio Data for Health

論文の概要: Voice EHR: Introducing Multimodal Audio Data for Health

arxiv url: http://arxiv.org/abs/2404.01620v3
Date: Sat, 09 Nov 2024 17:22:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:31.666447
Title: Voice EHR: Introducing Multimodal Audio Data for Health
Title（参考訳）: Voice EHR: 健康のためのマルチモーダルオーディオデータの導入
Authors: James Anibal, Hannah Huth, Ming Li, Lindsey Hazen, Veronica Daoud, Dominique Ebedes, Yen Minh Lam, Hang Nguyen, Phuc Hong, Michael Kleinman, Shelley Ost, Christopher Jackson, Laura Sprabery, Cheran Elangovan, Balaji Krishnaiah, Lee Akst, Ioan Lina, Iqbal Elyazar, Lenny Ekwati, Stefan Jansen, Richard Nduwayezu, Charisse Garcia, Jeffrey Plum, Jacqueline Brenner, Miranda Song, Emily Ricotta, David Clifton, C. Louise Thwaites, Yael Bensoussan, Bradford Wood,
Abstract要約: 既存の技術は、高所得国で高価な記録機器で収集された限られたデータセットに依存している。本報告では、モバイル/ウェブアプリケーションのみを用いて、ガイド付き質問を通じて健康データをキャプチャする新しいデータ型とそれに対応する収集システムを紹介する。
参考スコア（独自算出の注目度）: 3.8090294667599927
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Artificial intelligence (AI) models trained on audio data may have the potential to rapidly perform clinical tasks, enhancing medical decision-making and potentially improving outcomes through early detection. Existing technologies depend on limited datasets collected with expensive recording equipment in high-income countries, which challenges deployment in resource-constrained, high-volume settings where audio data may have a profound impact on health equity. This report introduces a novel data type and a corresponding collection system that captures health data through guided questions using only a mobile/web application. The app facilitates the collection of an audio electronic health record (Voice EHR) which may contain complex biomarkers of health from conventional voice/respiratory features, speech patterns, and spoken language with semantic meaning and longitudinal context, potentially compensating for the typical limitations of unimodal clinical datasets. This report presents the application used for data collection, initial experiments on data quality, and case studies which demonstrate the potential of voice EHR to advance the scalability/diversity of audio AI.
Abstract（参考訳）: 音声データに基づいてトレーニングされた人工知能(AI)モデルは、臨床業務を迅速に遂行し、医療上の意思決定を強化し、早期発見を通じて結果を改善する可能性がある。既存の技術は、高所得国で高価な記録機器で収集された限られたデータセットに依存しており、オーディオデータが健康に重大な影響を及ぼす可能性のある、資源に制約のある高ボリュームな環境での展開に挑戦する。本報告では、モバイル/ウェブアプリケーションのみを用いて、ガイド付き質問を通じて健康データをキャプチャする新しいデータ型とそれに対応する収集システムを紹介する。このアプリは、従来の音声/呼吸機能、音声パターン、意味的意味と経時的文脈を持つ音声言語から健康の複雑なバイオマーカーを含むオーディオ電子健康記録(Voice EHR)の収集を容易にし、単一の臨床データセットの典型的な制限を補う可能性がある。本稿では,データ収集,データ品質の初期実験,音声AIのスケーラビリティ・多様性向上のための音声EHRの可能性を示すケーススタディについて述べる。

関連論文リスト

CaReAQA: A Cardiac and Respiratory Audio Question Answering Model for Open-Ended Diagnostic Reasoning [17.462121203082006]
CaReAQAは、基礎的なオーディオモデルと大きな言語モデルの推論機能を統合するオーディオ言語モデルである。メタデータを付加したアノテートされた医療オーディオ記録のベンチマークデータセットであるCaReSoundを紹介する。評価の結果、CaReAQAは、オープンエンド診断推論タスクにおいて86.2%の精度を達成していることがわかった。
論文参考訳（メタデータ） (2025-05-02T11:42:46Z)
RespLLM: Unifying Audio and Text with Multimodal LLMs for Generalized Respiratory Health Prediction [20.974460332254544]
RespLLMは、呼吸健康予測のためのテキストと音声の表現を統一する新しいフレームワークである。我々の研究は、異種データの知覚、聴取、理解が可能なマルチモーダルモデルの基礎を築いた。
論文参考訳（メタデータ） (2024-10-07T17:06:11Z)
SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文参考訳（メタデータ） (2024-10-06T01:03:42Z)
Speaking the Same Language: Leveraging LLMs in Standardizing Clinical Data for AI [0.0]
本研究は、医療データの標準化など、特定の課題に対処するため、大規模言語モデルの採用を念頭においている。この結果から,大規模言語モデルを用いることで手作業によるデータキュレーションの必要性が著しく低下することが示唆された。提案手法は、医療におけるAIの統合を迅速化し、患者のケアの質を向上させるとともに、AIのためのデータ作成に必要な時間と資金を最小化する。
論文参考訳（メタデータ） (2024-08-16T20:51:21Z)
Speech Emotion Recognition under Resource Constraints with Data Distillation [64.36799373890916]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす。モノのインターネットにおけるエッジデバイスの出現は、複雑なディープラーニングモデルを構築する上での課題を示している。本研究では,IoTアプリケーションにおけるSERモデルの効率的な開発を容易にするためのデータ蒸留フレームワークを提案する。
論文参考訳（メタデータ） (2024-06-21T13:10:46Z)
BTS: Bridging Text and Sound Modalities for Metadata-Aided Respiratory Sound Classification [0.0]
音声サンプルのメタデータから派生した自由テキスト記述を用いて,事前学習したテキスト・オーディオ・マルチモーダルモデルを微調整する。提案手法は,ICBHIデータセットの最先端性能を達成し,先行した最良値の1.17%を突破した。
論文参考訳（メタデータ） (2024-06-10T20:49:54Z)
README: Bridging Medical Jargon and Lay Understanding for Patient Education through Data-Centric NLP [9.432205523734707]
医療用語を患者に親しみやすい平易な言語に簡略化することを目的とした,レイ定義の自動生成という新たなタスクを導入する。このデータセットは、5万以上のユニークな(医療用語、日常の定義)ペアと30万の言及からなる。また、データフィルタリング、拡張、選択を相乗化してデータ品質を改善する、データ中心のHuman-AIパイプラインも開発しました。
論文参考訳（メタデータ） (2023-12-24T23:01:00Z)
Radiology Report Generation Using Transformers Conditioned with Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文参考訳（メタデータ） (2023-11-18T14:52:26Z)
Analysing the Impact of Audio Quality on the Use of Naturalistic Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文参考訳（メタデータ） (2023-05-03T08:25:37Z)
Deep Feature Learning for Medical Acoustics [78.56998585396421]
本研究の目的は,医療音響の課題における学習内容の比較である。ヒトの呼吸音と心臓の鼓動を健康的または病態の影響の2つのカテゴリに分類する枠組みが実装されている。
論文参考訳（メタデータ） (2022-08-05T10:39:37Z)
Cross-Modal Information Maximization for Medical Imaging: CMIM [62.28852442561818]
病院では、同じ情報を異なるモダリティの下で利用できるようにする特定の情報システムにデータがサイロ化される。これは、テスト時に常に利用できないかもしれない同じ情報の複数のビューを列車で取得し、使用するためのユニークな機会を提供する。テスト時にモダリティの低下に耐性を持つマルチモーダル入力の優れた表現を学習することで、利用可能なデータを最大限活用する革新的なフレームワークを提案する。
論文参考訳（メタデータ） (2020-10-20T20:05:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。