論文の概要: Evaluating a Multi-Agent Voice-Enabled Smart Speaker for Care Homes: A Safety-Focused Framework
- arxiv url: http://arxiv.org/abs/2603.23625v1
- Date: Tue, 24 Mar 2026 18:08:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:10.979053
- Title: Evaluating a Multi-Agent Voice-Enabled Smart Speaker for Care Homes: A Safety-Focused Framework
- Title(参考訳): 介護施設のためのマルチエージェント音声対応スマートスピーカーの評価:安全性を重視したフレームワーク
- Authors: Zeinab Dehghani, Rameez Raja Kureshi, Koorosh Aslansefat, Faezeh Alsadat Abedi, Dhavalkumar Thakker, Lisa Greaves, Bhupesh Kumar Mishra, Baseer Ahmad, Tanaya Maslekar,
- Abstract要約: 本稿では,介護施設における日常生活支援を目的とした音声対応ホームスマートスピーカーについて検討する。
本稿では,Whisperに基づく音声認識と検索拡張生成手法を組み合わせた,システムエンドツーエンドの安全性評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.03611680827515096
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Artificial intelligence (AI) is increasingly being explored in health and social care to reduce administrative workload and allow staff to spend more time on patient care. This paper evaluates a voice-enabled Care Home Smart Speaker designed to support everyday activities in residential care homes, including spoken access to resident records, reminders, and scheduling tasks. A safety-focused evaluation framework is presented that examines the system end-to-end, combining Whisper-based speech recognition with retrieval-augmented generation (RAG) approaches (hybrid, sparse, and dense). Using supervised care-home trials and controlled testing, we evaluated 330 spoken transcripts across 11 care categories, including 184 reminder-containing interactions. These evaluations focus on (i) correct identification of residents and care categories, (ii) reminder recognition and extraction, and (iii) end-to-end scheduling correctness under uncertainty (including safe deferral/clarification). Given the safety-critical nature of care homes, particular attention is also paid to reliability in noisy environments and across diverse accents, supported by confidence scoring, clarification prompts, and human-in-the-loop oversight. In the best-performing configuration (GPT-5.2), resident ID and care category matching reached 100% (95% CI: 98.86-100), while reminder recognition reached 89.09\% (95% CI: 83.81-92.80) with zero missed reminders (100% recall) but some false positives. End-to-end scheduling via calendar integration achieved 84.65% exact reminder-count agreement (95% CI: 78.00-89.56), indicating remaining edge cases in converting informal spoken instructions into actionable events. The findings suggest that voice-enabled systems, when carefully evaluated and appropriately safeguarded, can support accurate documentation, effective task management, and trustworthy use of AI in care home settings.
- Abstract(参考訳): 人工知能(AI)は、管理作業の負担を減らし、スタッフが患者のケアにより多くの時間を費やすことを可能にするために、医療や社会医療でますます研究されている。
本稿では,在宅介護施設における日常的活動を支援するための音声対応型ケアホームスマートスピーカーについて,住民記録,リマインダー,スケジュールタスク等について検討する。
本稿では,Whisperに基づく音声認識とRAG(Research-augmented Generation)アプローチ(ハイブリッド,スパース,高密度)を組み合わせたシステムエンドツーエンドの評価フレームワークを提案する。
指導的ケア・ホーム・トライアルとコントロール・テストを用いて、184のリマインダーを含む11のケアカテゴリーにわたる330の音声書き起こしを評価した。
これらの評価は
一 居住者及び介護カテゴリーの正確な識別
(二)リマインダーの認識及び抽出、及び
三 不確実性(安全な推論・明確化を含む。)によるエンドツーエンドのスケジューリングの正当性
介護施設の安全性に欠かせない性質を考えると、騒音の多い環境や様々なアクセントの信頼性にも特に注意が払われる。
最高のパフォーマンス設定(GPT-5.2)では、常駐IDとケアカテゴリーマッチングが100%(95% CI: 98.86-100)、リマインダー認識が89.09\%(95% CI: 83.81-92.80)に達した。
カレンダー統合によるエンドツーエンドのスケジューリングは84.65%の正確なリマインダーカウント契約(95% CI: 78.00-89.56)を達成した。
この結果は、慎重に評価され、適切に保護された音声対応システムは、正確なドキュメンテーション、効果的なタスク管理、そしてケアホーム設定におけるAIの信頼できる使用をサポートすることができることを示唆している。
関連論文リスト
- Agentic Cognitive Profiling: Realigning Automated Alzheimer's Disease Detection with Clinical Construct Validity [66.94391219005291]
本稿では,臨床プロトコルロジックによる自動スクリーニングを実現するエージェント認知プロファイリング(ACP)を提案する。
我々の設計の中心は、すべての定量化を決定論的関数呼び出しに委譲することで、測定から意味的理解を分離することである。
ACPは、タスク試験で90.5%のスコアマッチ率、AD予測で85.3%の精度を達成し、一般的な基準を上回っている。
論文 参考訳(メタデータ) (2026-03-18T06:15:35Z) - The Trust in AI-Generated Health Advice (TAIGHA) Scale and Short Version (TAIGHA-S): Development and Validation Study [1.0112913394578702]
本研究は,AI生成型ヘルスアドバイザ(TAIGHA)尺度とその4項目短縮形(TAIGHA-S)の開発と検証を行った。
項目は生成AIアプローチを使用して開発され、続いて10のドメインエキスパートによるコンテンツ検証、30人のレイ参加者による顔検証、および症状評価シナリオでAI生成アドバイスを受けた385人の英国参加者による心理測定検証が実施された。
論文 参考訳(メタデータ) (2025-12-16T10:40:07Z) - LogiDebrief: A Signal-Temporal Logic based Automated Debriefing Approach with Large Language Models Integration [2.1074375725054697]
我々は,9-1-1コールテイカの人間主導評価を自動化する,AI駆動のフレームワークであるLogiDebriefを紹介する。
LogiDebriefは、コールテイク要求を論理的な仕様として形式化し、9-1呼び出しの体系的な評価を可能にする。
実世界の1,701件の通話を遮断し、311.85時間のアクティブ・エンゲージメントを節約した。
論文 参考訳(メタデータ) (2025-05-06T21:27:07Z) - Automating Feedback Analysis in Surgical Training: Detection, Categorization, and Assessment [65.70317151363204]
本研究は,非構造化現実記録からの外科的対話を再構築するための最初の枠組みを紹介する。
外科訓練では,ライブ手術中に訓練者に提供する形式的言語フィードバックは,安全性の確保,行動の即時修正,長期的スキル獲得の促進に不可欠である。
本フレームワークは,音声活動の検出,話者ダイアリゼーション,自動音声認識と,幻覚を除去する新たな拡張機能を統合する。
論文 参考訳(メタデータ) (2024-12-01T10:35:12Z) - Non-Invasive Suicide Risk Prediction Through Speech Analysis [74.8396086718266]
自動自殺リスク評価のための非侵襲的音声ベースアプローチを提案する。
我々は、wav2vec、解釈可能な音声・音響特徴、深層学習に基づくスペクトル表現の3つの特徴セットを抽出する。
我々の最も効果的な音声モデルは、6.6.2,%$のバランスの取れた精度を達成する。
論文 参考訳(メタデータ) (2024-04-18T12:33:57Z) - Dementia Assessment Using Mandarin Speech with an Attention-based Speech
Recognition Encoder [0.4369058206183195]
本稿では,マンダリン話者に適した認知症評価システムを構築するために,音声認識モデルを利用する。
99名の被験者からマンダリン音声データを収集し, 地域病院から臨床評価を得た。
アルツハイマー病の診断では92.04%の精度で, 平均絶対誤差は9%であった。
論文 参考訳(メタデータ) (2023-10-06T03:04:11Z) - Leveraging Pretrained Representations with Task-related Keywords for
Alzheimer's Disease Detection [69.53626024091076]
アルツハイマー病(AD)は高齢者に特に顕著である。
事前学習モデルの最近の進歩は、AD検出モデリングを低レベル特徴から高レベル表現にシフトさせる動機付けとなっている。
本稿では,高レベルの音響・言語的特徴から,より優れたAD関連手がかりを抽出する,いくつかの効率的な手法を提案する。
論文 参考訳(メタデータ) (2023-03-14T16:03:28Z) - Conformer Based Elderly Speech Recognition System for Alzheimer's
Disease Detection [62.23830810096617]
アルツハイマー病(AD)の早期診断は、予防ケアがさらなる進行を遅らせるのに不可欠である。
本稿では,DementiaBank Pitt コーパスをベースとした最新のコンバータに基づく音声認識システムの開発について述べる。
論文 参考訳(メタデータ) (2022-06-23T12:50:55Z) - NUVA: A Naming Utterance Verifier for Aphasia Treatment [49.114436579008476]
失語症(PWA)患者の治療介入に対する反応の診断とモニタリングの両立のための画像命名タスクを用いた音声性能評価
本稿では,失語症脳卒中患者の「正しい」と「正しくない」を分類する深層学習要素を組み込んだ発話検証システムであるNUVAについて述べる。
イギリス系英語8ヶ国語でのテストでは、システムの性能精度は83.6%から93.6%の範囲であり、10倍のクロスバリデーション平均は89.5%であった。
論文 参考訳(メタデータ) (2021-02-10T13:00:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。