論文の概要: Developing Conversational Speech Systems for Robots to Detect Speech Biomarkers of Cognition in People Living with Dementia
- arxiv url: http://arxiv.org/abs/2502.10896v1
- Date: Sat, 15 Feb 2025 20:25:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:13:08.007293
- Title: Developing Conversational Speech Systems for Robots to Detect Speech Biomarkers of Cognition in People Living with Dementia
- Title(参考訳): 認知症者における音声認識バイオマーカー検出のための対話型音声システムの開発
- Authors: Rohith Perumandla, Young-Ho Bae, Diego Izaguirre, Esther Hwang, Andrew Murphy, Long-Jing Hsu, Selma Sabanovic, Casey C. Bennett,
- Abstract要約: 認知障害者(PLWD)の認知障害を示す音声バイオマーカーをロボットが検出するための対話型音声システムを開発した。
このシステムは、バックエンドのPython WebSocketサーバと、認知症のために微調整された大きな言語モデル(LLM)を備えた中央コアモジュールを統合している。
ユーザインターフェースであるProgressive Web App (PWA)は、情報とバイオマーカースコアグラフをスマートフォン上でリアルタイムで人間ユーザに提供する。
- 参考スコア(独自算出の注目度): 1.6147655786979749
- License:
- Abstract: This study presents the development and testing of a conversational speech system designed for robots to detect speech biomarkers indicative of cognitive impairments in people living with dementia (PLwD). The system integrates a backend Python WebSocket server and a central core module with a large language model (LLM) fine-tuned for dementia to process user input and generate robotic conversation responses in real-time in less than 1.5 seconds. The frontend user interface, a Progressive Web App (PWA), displays information and biomarker score graphs on a smartphone in real-time to human users (PLwD, caregivers, clinicians). Six speech biomarkers based on the existing literature - Altered Grammar, Pragmatic Impairments, Anomia, Disrupted Turn-Taking, Slurred Pronunciation, and Prosody Changes - were developed for the robot conversation system using two datasets, one that included conversations of PLwD with a human clinician (DementiaBank dataset) and one that included conversations of PLwD with a robot (Indiana dataset). We also created a composite speech biomarker that combined all six individual biomarkers into a single score. The speech system's performance was first evaluated on the DementiaBank dataset showing moderate correlation with MMSE scores, with the composite biomarker score outperforming individual biomarkers. Analysis of the Indiana dataset revealed higher and more variable biomarker scores, suggesting potential differences due to study populations (e.g. severity of dementia) and the conversational scenario (human-robot conversations are different from human-human). The findings underscore the need for further research on the impact of conversational scenarios on speech biomarkers and the potential clinical applications of robotic speech systems.
- Abstract(参考訳): 本研究では,認知症(PLWD)の認知障害を示す音声バイオマーカーをロボットが検出するための会話音声システムの開発と試験を行う。
このシステムは、バックエンドのPython WebSocketサーバと中央コアモジュールを、認知症のために微調整された大きな言語モデル(LLM)と統合し、ユーザ入力を処理し、1.5秒未満でロボット会話応答をリアルタイムで生成する。
フロントエンドのユーザインターフェースであるProgressive Web App (PWA)は、スマートフォン上で人(PLwD、介護者、臨床医)にリアルタイムで情報とバイオマーカースコアグラフを表示する。
既存の文献に基づく6つの音声バイオマーカー - Altered Grammar, Pragmatic Impairments, Anomia, Disrupted Turn-Taking, Slurred Pronunciation, Prosody Changes - は、2つのデータセットを用いてロボット会話システム用に開発された。
また、6つのバイオマーカーを1つのスコアにまとめる合成音声バイオマーカーも作成した。
音声システムの性能は, MMSEスコアと適度な相関を示すDementiaBankデータセットで評価され, 複合バイオマーカースコアは個々のバイオマーカーよりも優れていた。
インディアナ州のデータセットの分析では、より多彩なバイオマーカースコアが示され、研究人口(認知症の重症度など)と会話のシナリオ(人間とロボットの会話は人間とは異なる)による潜在的な違いが示唆された。
この結果は、会話シナリオが音声バイオマーカーに与える影響と、ロボット音声システムの臨床応用の可能性について、さらなる研究の必要性を浮き彫りにしている。
関連論文リスト
- REALTALK: A 21-Day Real-World Dataset for Long-Term Conversation [51.97224538045096]
本稿では、21日間のメッセージアプリ対話のコーパスであるREALTALKを紹介する。
EI属性とペルソナの整合性を比較し,現実世界の対話による課題を理解する。
その結果,モデルでは対話履歴のみからユーザをシミュレートすることが困難であり,特定のユーザチャットの微調整はペルソナのエミュレーションを改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T20:29:01Z) - Afrispeech-Dialog: A Benchmark Dataset for Spontaneous English Conversations in Healthcare and Beyond [0.0]
Afrispeech-Dialogは、医学的および非医学的アフリカ中心の英語会話を模擬した50のベンチマークデータセットである。
長音のアクセント付き音声に対して,最先端話者ダイアリゼーション(SOTA)とASRシステムを評価し,その性能をネイティブアクセントと比較し,10%以上の性能劣化を見出した。
論文 参考訳(メタデータ) (2025-02-06T10:33:07Z) - Self-Directed Turing Test for Large Language Models [56.64615470513102]
チューリングテストは、自然言語の会話においてAIが人間のような振る舞いを示すことができるかどうかを調べる。
従来のチューリングテストでは、各参加者が1回に1つのメッセージだけを送信する厳格な対話形式を採用している。
本稿では,バーストダイアログ形式を用いた自己指示チューリングテストを提案する。
論文 参考訳(メタデータ) (2024-08-19T09:57:28Z) - MindSpeech: Continuous Imagined Speech Decoding using High-Density fNIRS and Prompt Tuning for Advanced Human-AI Interaction [0.0]
本稿では,脳とAIの直接インターフェースを開発することによって,人間とAIのインタラクションを実現する新しい手法を提案する。
我々はMindSpeechと呼ばれる新しいAIモデルについて論じる。
4名中3名に対してBLEU-1,BERT Pスコアなどの指標を有意に改善した。
論文 参考訳(メタデータ) (2024-07-25T16:39:21Z) - A Graph-to-Text Approach to Knowledge-Grounded Response Generation in
Human-Robot Interaction [2.3590037806133024]
本稿では,対話状態のグラフベース表現に基づく人間-ロボット間相互作用の新しい対話モデルを提案する。
ユーザの発話に応答するために使用されるニューラルネットワークモデルは、シンプルだが効果的なグラフ・トゥ・テキスト機構に依存している。
提案手法はヒューマノイドロボットを用いたユーザスタディにより実験的に評価される。
論文 参考訳(メタデータ) (2023-11-03T15:44:28Z) - PLACES: Prompting Language Models for Social Conversation Synthesis [103.94325597273316]
我々は、プロンプトを用いてソーシャルな会話データセットを合成するために、専門家による会話の小さなセットをコンテキスト内例として使用します。
人工会話の徹底的な評価を,人間による会話と比較して行った。
論文 参考訳(メタデータ) (2023-02-07T05:48:16Z) - Continuous ErrP detections during multimodal human-robot interaction [2.5199066832791535]
我々は,シミュレーションロボットが音声やジェスチャーを通じて人間とコミュニケーションする,マルチモーダルなヒューマンロボットインタラクション(HRI)シナリオを実装した。
人間のパートナーは、ロボットが選択した動作(ポインティングジェスチャー)とロボットの口頭発表(意図)が一致しているかを評価する。
脳波で明らかな、人間によるロボット行動の本質的な評価は、リアルタイムで記録され、オンラインで連続的にセグメンテーションされ、非同期に分類された。
論文 参考訳(メタデータ) (2022-07-25T15:39:32Z) - NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level
Quality [123.97136358092585]
我々は、ベンチマークデータセット上で人間レベルの品質を実現するNaturalSpeechと呼ばれるTSシステムを開発した。
具体的には、波形生成のための変分オートエンコーダ(VAE)を利用する。
LJSpeechデータセットを用いた実験により,提案したNaturalSpeechは文レベルでの人間の記録に対して-0.01CMOSを達成した。
論文 参考訳(メタデータ) (2022-05-09T16:57:35Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Intelligent Conversational Android ERICA Applied to Attentive Listening
and Job Interview [41.789773897391605]
我々はインテリジェントな会話型android ericaを開発した。
ERICAには,注意深い聞き取り,就職面接,スピードデートなど,いくつかのソーシャルインタラクションタスクを設定した。
40人の高齢者が会話を分解することなく5~7分間の会話を行ったことが評価されている。
論文 参考訳(メタデータ) (2021-05-02T06:37:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。