論文の概要: A Principle-based Framework for the Development and Evaluation of Large Language Models for Health and Wellness
- arxiv url: http://arxiv.org/abs/2512.08936v1
- Date: Thu, 23 Oct 2025 06:54:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.405364
- Title: A Principle-based Framework for the Development and Evaluation of Large Language Models for Health and Wellness
- Title(参考訳): 健康・健康のための大規模言語モデルの開発と評価のための原則に基づくフレームワーク
- Authors: Brent Winslow, Jacqueline Shreibati, Javier Perez, Hao-Wei Su, Nichole Young-Lin, Nova Hammerquist, Daniel McDuff, Jason Guss, Jenny Vafeiadou, Nick Cain, Alex Lin, Erik Schenck, Shiva Rajagopal, Jia-Ru Chung, Anusha Venkatakrishnan, Amy Armento Lee, Maryam Karimzadehgan, Qingyou Meng, Rythm Agarwal, Aravind Natarajan, Tracy Giest,
- Abstract要約: 本稿では,個人の健康データを解釈するための大規模言語モデル(LLM)システムであるFitbit Insightsエクスプローラの開発について述べる。
安全性、有用性、正確性、妥当性、パーソナライゼーション(SHARP)の原則に基づくフレームワークを導入している。
一般論者や臨床専門家による人的評価、オートラッター評価、敵対的検査を含む総合的な評価技術を統合する。
- 参考スコア(独自算出の注目度): 7.135227672247848
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The incorporation of generative artificial intelligence into personal health applications presents a transformative opportunity for personalized, data-driven health and fitness guidance, yet also poses challenges related to user safety, model accuracy, and personal privacy. To address these challenges, a novel, principle-based framework was developed and validated for the systematic evaluation of LLMs applied to personal health and wellness. First, the development of the Fitbit Insights explorer, a large language model (LLM)-powered system designed to help users interpret their personal health data, is described. Subsequently, the safety, helpfulness, accuracy, relevance, and personalization (SHARP) principle-based framework is introduced as an end-to-end operational methodology that integrates comprehensive evaluation techniques including human evaluation by generalists and clinical specialists, autorater assessments, and adversarial testing, into an iterative development lifecycle. Through the application of this framework to the Fitbit Insights explorer in a staged deployment involving over 13,000 consented users, challenges not apparent during initial testing were systematically identified. This process guided targeted improvements to the system and demonstrated the necessity of combining isolated technical evaluations with real-world user feedback. Finally, a comprehensive, actionable approach is established for the responsible development and deployment of LLM-powered health applications, providing a standardized methodology to foster innovation while ensuring emerging technologies are safe, effective, and trustworthy for users.
- Abstract(参考訳): 生成的人工知能をパーソナルヘルスアプリケーションに組み込むことは、パーソナライズされたデータ駆動型ヘルスおよびフィットネスガイダンスのための変革的な機会を提供する一方で、ユーザの安全性、モデルの正確性、個人のプライバシに関する課題も引き起こす。
これらの課題に対処するために、個人的健康と健康に適応したLSMの体系的評価のために、新しい原則に基づくフレームワークを開発し、検証した。
まず、Fitbit Insightsエクスプローラの開発について述べる。これは、ユーザーが個人の健康データを解釈するのに役立つように設計された、大きな言語モデル(LLM)を利用したシステムである。
その後、一般論者や臨床専門家による人的評価、オートラッター評価、対人テストを含む総合的な評価手法を反復的な開発ライフサイクルに統合するエンド・ツー・エンドの運用手法として、安全性、有用性、正確性、妥当性、パーソナライゼーション(SHARP)の原則に基づくフレームワークが導入された。
このフレームワークをFitbit Insightsエクスプローラに13,000人以上の同意されたユーザを含む段階的なデプロイメントに適用することで、初期テスト中に明らかでない課題が体系的に特定された。
このプロセスはシステムの改善を目標とし、独立した技術評価と実際のユーザフィードバックを組み合わせる必要性を実証した。
最後に、LCMによる健康アプリケーションの開発と展開の責任を負うために、包括的で実行可能なアプローチが確立され、イノベーションを育むための標準化された方法論を提供しながら、新興技術が安全で効果的で、ユーザにとって信頼できるものであることを保証します。
関連論文リスト
- ChroniUXMag: A Persona-Driven Framework for Inclusive mHealth Requirements Engineering [6.574640199180087]
本研究は,mHealth設計における傾斜度要求を抽出・解析するフレームワークであるChroniUXMagを紹介する。
このフレームワークはInclusiveMagとGenderMagの原則に基づいており、研究者や実践者が慢性疾患を持つ個人がmHealthシステムをどのように認識し、信頼し、相互作用するかに影響を与える要因を体系的に把握し、評価することを目的としている。
論文 参考訳(メタデータ) (2025-11-23T22:20:13Z) - From Framework to Practice: Designing a Real-World Telehealth Application for Palliative Care [9.062051939081783]
本稿では, 緩和テレヘルス能力(ETHC)に着目した緩和ケア用ソフトウェアアプリケーションを設計する手法について述べる。
我々の社会技術設計フレームワークは、安全で公平でレジリエントなデジタルヘルスアプリケーションを作成することに成功しました。
論文 参考訳(メタデータ) (2025-11-01T12:14:25Z) - Mentalic Net: Development of RAG-based Conversational AI and Evaluation Framework for Mental Health Support [0.0]
メンタルネット会話AIはBERTスコアが0.898であり、他の評価指標は満足のいく範囲内にある。
我々は,このようなトランスフォーメーション技術を開発する上で,人間-イン-ザ-ループアプローチと長期的かつ責任ある戦略を提唱する。
論文 参考訳(メタデータ) (2025-08-27T03:44:56Z) - Medical Reasoning in the Era of LLMs: A Systematic Review of Enhancement Techniques and Applications [59.721265428780946]
医学における大きな言語モデル(LLM)は印象的な能力を実現しているが、体系的で透明で検証可能な推論を行う能力に重大なギャップが残っている。
本稿は、この新興分野に関する最初の体系的なレビューを提供する。
本稿では,学習時間戦略とテスト時間メカニズムに分類した推論強化手法の分類法を提案する。
論文 参考訳(メタデータ) (2025-08-01T14:41:31Z) - Advancing Embodied Agent Security: From Safety Benchmarks to Input Moderation [52.83870601473094]
エンボディード・エージェントは、複数のドメインにまたがって大きな潜在能力を示す。
既存の研究は主に、一般的な大言語モデルのセキュリティに重点を置いている。
本稿では, エンボディエージェントの保護を目的とした新しい入力モデレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-22T08:34:35Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z) - Guiding IoT-Based Healthcare Alert Systems with Large Language Models [22.54714587190204]
医療アラートシステム(HAS)は、人工知能(AI)、IoT(Internet of Things)技術の進歩、健康意識の向上など、急速に進化している。
パーソナライズされたヘルスアラートの正確さと、リソースに制約されたHAS環境における厳格なプライバシー保護のバランス。
本稿では,Large Language Models (LLM) をHASに組み込んだ一様フレームワーク LLM-HAS を導入し,その精度を大幅に向上させ,ユーザのプライバシーを確保し,パーソナライズされたヘルスサービスを強化する。
論文 参考訳(メタデータ) (2024-08-23T13:55:36Z) - A Survey on Medical Large Language Models: Technology, Application, Trustworthiness, and Future Directions [23.36640449085249]
医学大言語モデル(Med-LLMs)の最近の進歩を辿る。
The wide-ranging application of Med-LLMs are investigated across various health domain。
公平性、説明責任、プライバシー、堅牢性を保証する上での課題について議論する。
論文 参考訳(メタデータ) (2024-06-06T03:15:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。