論文の概要: If Only My CGM Could Speak: A Privacy-Preserving Agent for Question Answering over Continuous Glucose Data
- arxiv url: http://arxiv.org/abs/2604.17133v1
- Date: Sat, 18 Apr 2026 20:18:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.35058
- Title: If Only My CGM Could Speak: A Privacy-Preserving Agent for Question Answering over Continuous Glucose Data
- Title(参考訳): もしも私のCGMが答えられるなら:連続的なグルコースデータによる質問応答のためのプライバシー保護エージェント
- Authors: Yanjun Cui, Ali Emami, Temiloluwa Prioleau, Nikhil Singh,
- Abstract要約: CGM-Agentは個人のグルコースデータに対する質問応答のためのプライバシー保護フレームワークである。
上位モデルでは、合成クエリで94%の精度、曖昧な実世界のクエリで88%の精度を実現している。
- 参考スコア(独自算出の注目度): 13.744231219864133
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continuous glucose monitors (CGMs) used in diabetes care collect rich personal health data that could improve day-to-day self-management. However, current patient platforms only offer static summaries which do not support inquisitive user queries. Large language models (LLMs) could enable free-form inquiries about continuous glucose data, but deploying them over sensitive health records raises privacy and accuracy concerns. In this paper, we present CGM-Agent, a privacy-preserving framework for question answering over personal glucose data. In our design, the LLM serves purely as a reasoning engine that selects analytical functions. All computation occurs locally, and personal health data never leaves the user's device. For evaluation, we construct a benchmark of 4,180 questions combining parameterized question templates with real user queries and ground truth derived from deterministic program execution. Evaluating 6 leading LLMs, we find that top models achieve 94\% value accuracy on synthetic queries and 88\% on ambiguous real-world queries. Errors stem primarily from intent and temporal ambiguity rather than computational failures. Additionally, lightweight models achieve competitive performance in our agent design, suggesting opportunities for low-cost deployment. We release our code and benchmark to support future work on trustworthy health agents.
- Abstract(参考訳): 糖尿病治療に用いられる連続血糖モニター(CGM)は、日々の自己管理を改善することができる豊富な個人の健康データを収集する。
しかし、現在の患者プラットフォームは静的なサマリーしか提供していない。
大きな言語モデル(LLM)は、連続したグルコースデータに関するフリーフォームの問い合わせを可能にするが、機密性の高い健康記録にそれらをデプロイすることで、プライバシと正確性に関する懸念が高まる。
本稿では,個人グルコースデータに対する質問応答のためのプライバシー保護フレームワークであるCGM-Agentを提案する。
我々の設計では、LLMは純粋に解析関数を選択する推論エンジンとして機能する。
すべての計算はローカルで行われ、個人の健康データがユーザーのデバイスを離れることはない。
評価のために,パラメータ化された質問テンプレートと実際のユーザクエリと,決定論的プログラムの実行から得られた真実とを組み合わせた4180の質問のベンチマークを構築した。
上位6つのLLMを評価した結果, 上位モデルでは, 合成クエリでは94 %, 曖昧な実世界のクエリでは88 %の精度が得られた。
エラーは主に計算失敗というよりも、意図と時間的曖昧さに起因している。
さらに、軽量モデルはエージェント設計における競合的な性能を実現し、低コストなデプロイメントの機会を示唆している。
信頼に値する健康エージェントに関する今後の作業をサポートするために、コードとベンチマークをリリースします。
関連論文リスト
- Epistemic Blinding: An Inference-Time Protocol for Auditing Prior Contamination in LLM-Assisted Analysis [0.0]
エピステミックブラインド(英: epistemic blinding)は、エンティティ識別子を匿名のコードに置き換える単純な推論時プロトコルである。
4種類のがん種を対象とする腫瘍薬剤の優先順位付けでは、盲目化は上位20の予測の16%に変化し、検証対象の同一の回復を保っている。
S&P 500エクイティ・スクリーニングでは、ブランド認識バイアスが5つのランダムな種子のトップ20ランキングの30-40%を占めている。
論文 参考訳(メタデータ) (2026-04-07T16:06:52Z) - Can We Predict Before Executing Machine Learning Agents? [74.39460101251792]
データ中心のソリューション優先のタスクを形式化し、18,438対比較の包括的コーパスを構築する。
検証データ解析レポートを作成した場合, LLM は重要な予測能力を示すことを示す。
このフレームワークをForEAGENT(Predict-then-Verifyループを利用するエージェント)でインスタンス化し、実行ベースラインを+6%超えながらコンバージェンスを6倍高速化する。
論文 参考訳(メタデータ) (2026-01-09T16:44:17Z) - DM-Bench: Benchmarking LLMs for Personalized Decision Making in Diabetes Management [1.8289322713164966]
実世界の意思決定タスクにおける大規模言語モデル(LLM)の性能を評価するために設計された最初のベンチマークであるDM-Benchを提案する。
我々のベンチマークは7つの異なるタスクカテゴリを含んでおり、糖尿病患者が質問する現実世界の質問の幅を反映している。
このベンチマークを確立することで、糖尿病治療におけるAIソリューションの信頼性、安全性、有効性、実用性を向上することを目指している。
論文 参考訳(メタデータ) (2025-09-26T15:08:30Z) - Maximally-Informative Retrieval for State Space Model Generation [59.954191072042526]
テスト時に特定のクエリに対するモデル不確実性を最小化するために、Retrieval In-Context Optimization (RICO)を導入する。
文書検索に外部に依存した従来の検索強化生成(RAG)とは異なり,本手法はモデルから直接のフィードバックを利用する。
モデル勾配を用いた標準のトップ$kの検索は、最適化手順を近似し、残余損失への接続を提供することを示す。
論文 参考訳(メタデータ) (2025-06-13T18:08:54Z) - PatientDx: Merging Large Language Models for Protecting Data-Privacy in Healthcare [2.1046377530356764]
大規模言語モデル(LLM)の微調整は、与えられたタスクにおけるモデルパフォーマンスを改善するためのデフォルトのプラクティスとなっている。
patientDxはモデルマージのフレームワークであり、患者データへの微調整や適応を必要とせずに、健康予測タスクに有効なLCMを設計できる。
論文 参考訳(メタデータ) (2025-04-24T08:21:04Z) - AgentDAM: Privacy Leakage Evaluation for Autonomous Web Agents [66.29263282311258]
我々は、AIウェブナビゲーションエージェントがデータ最小化のプライバシー原則に従うかどうかを測定する新しいベンチマークAgentDAMを紹介する。
我々のベンチマークは、現実的なWebインタラクションシナリオをエンドツーエンドでシミュレートし、既存のWebナビゲーションエージェントに適応する。
論文 参考訳(メタデータ) (2025-03-12T19:30:31Z) - Question Answering on Patient Medical Records with Private Fine-Tuned LLMs [1.8524621910043437]
大規模言語モデル(LLM)は、医療データに対する意味的質問応答(QA)を可能にする。
プライバシとコンプライアンスを保証するには、LLMのエッジとプライベートのデプロイメントが必要です。
GPT-4 や GPT-4o などのベンチマークモデルに対して,プライベートホスト型,微調整型 LLM の評価を行った。
論文 参考訳(メタデータ) (2025-01-23T14:13:56Z) - Reliable Visual Question Answering: Abstain Rather Than Answer
Incorrectly [100.60560477391732]
我々は、信頼性のある視覚的質問応答(VQA)のための問題定式化を促進する。
私たちは、彼らのカバレッジ、回答された質問の一部、そしてその部分のエラーの両方を分析します。
最高のパフォーマンスモデルは、VQA v2データセットで71%以上の精度を達成するが、そのオプションを導入することで、低いエラー(1%)のリスクを達成するために、8%未満の質問に答えることが制限されることがわかった。
これにより、マルチモーダル選択関数を用いて、予測された回答の正しさを直接推定し、例えば5.0%から16.7%のカバレッジを3倍にすることができることを示す。
論文 参考訳(メタデータ) (2022-04-28T16:51:27Z) - Selective Question Answering under Domain Shift [90.021577320085]
モデルがドメイン外の入力に対して過度に信頼されているため、モデルのソフトマックス確率のみに基づくアテンションポリシーは不適切である。
キャリブレータをトレーニングして、QAモデルがアースする入力を識別し、エラーを予測した場合に停止する。
提案手法は,80%の精度を維持しながら56%の質問に回答するが,それに対してモデルの確率を直接使用する場合,80%の精度で48%しか回答しない。
論文 参考訳(メタデータ) (2020-06-16T19:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。