論文の概要: Inform, Coach, Relate, Listen: Auditing LLM Caregiving Support Roles
- arxiv url: http://arxiv.org/abs/2605.29473v1
- Date: Thu, 28 May 2026 07:04:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.879896
- Title: Inform, Coach, Relate, Listen: Auditing LLM Caregiving Support Roles
- Title(参考訳): インフォーム、コーチ、リレーション、リステン:LLMケアサポートの役割を監査
- Authors: Drishti Goel, Agam Goyal, Veda Duddu, Olivia Pal, Jeongah Lee, Qiuyue Joy Zhong, Violeta J. Rodriguez, Daniel S. Brown, Dong Whi Yoo, Ravi Karkar, Koustuv Saha,
- Abstract要約: 言語モデルは、非公式な介護コンテキストにおける会話のサポートのために、ますますデプロイされています。
ほとんどの安全評価は、一般的なプロンプトの下でのモデル行動を評価し、重要な疑問を未検討のまま残している。
本研究は,社会支援理論に基づく4つの専門家レビュー型サポートロール(インフォーム,コーチ,リレート,リステン)を運用することによって,これを研究する。
オンラインアルツハイマー病と認知症関連コミュニティから,5000件のリアルタイム質問に対して3つの言語モデルを用いて評価を行った。
- 参考スコア(独自算出の注目度): 15.229339929488162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models are increasingly being deployed for conversational support in informal caregiving contexts, where interactions often extend beyond information-seeking: caregivers seek emotional reassurance, guidance, and help, while navigating uncertain, relationally complex care decisions. Yet most safety evaluations assess model behavior under generic prompts, leaving a critical question unexamined: does a model's safety profile change with its support role? We study this by operationalizing four expert-reviewed support roles grounded in social support theory: Inform, Coach, Relate, and Listen, and comparing them against two baseline controls: a basic prompting condition and a retrieval-augmented generation (RAG) condition. We evaluate across three language models (GPT-4o-mini, Llama-3.1-8B-Instruct, and MedGemma-1.5-4b-it) on 5,000 real-world queries from online Alzheimer's Disease and Related Dementias (ADRD) communities. We find that the LLM's support role systematically shapes both the prevalence and composition of interactional risks. Furthermore, a human evaluation study reveals a perceived quality--safety tension: more directive, information-oriented roles are rated as more helpful and trustworthy despite exhibiting elevated interactional risk profiles. We release ~90,000 support role-conditioned model responses with risk annotations as an ecologically grounded resource for research on safer LLM-mediated conversational support.
- Abstract(参考訳): 言語モデルは、非公式な介護コンテキストにおける会話の支援のために、ますます多くデプロイされている。
しかし、ほとんどの安全評価は、一般的なプロンプトの下でモデル行動を評価し、決定的な疑問を残している。
本研究では,社会支援理論に基づく4つの専門家レビュー型サポートロールであるインフォーム,コーチ,リレーション,リステンを運用し,基本的プロンプト条件と検索強化世代(RAG)条件の2つのベースラインコントロールと比較する。
我々は,3つの言語モデル(GPT-4o-mini,Llama-3.1-8B-Instruct,MedGemma-1.5-4b-it)を,オンラインアルツハイマー病および関連認知症(ADRD)コミュニティから5,000のリアルタイムクエリに対して評価した。
LLMの担い手の役割は、相互作用リスクの有病率と構成の両方を体系的に形成することを発見した。
さらに、人間による評価では、より指示的で情報指向的な役割は、高い相互作用リスクプロファイルを示すにもかかわらず、より有益で信頼できるものとして評価される。
リスクアノテーションを用いた約90,000のロール条件付きモデル応答を, LLMによるより安全な会話支援の研究のための生態学的根拠とした資源としてリリースする。
関連論文リスト
- MHSafeEval: Role-Aware Interaction-Level Evaluation of Mental Health Safety in Large Language Models [32.31200693426663]
大規模言語モデル(LLM)は、メンタルヘルスカウンセリングのためのスケーラブルなツールとして、ますます研究されている。
臨床的害の相互作用と文脈に依存した性質のため、安全性を評価することは依然として困難である。
我々は、ロールアウェアなメンタルヘルス安全分類であるR-MHSafeと、クローズドループエージェントベースの評価フレームワークであるMHSafeEvalを紹介する。
論文 参考訳(メタデータ) (2026-04-20T02:37:45Z) - Assessing the Quality of Mental Health Support in LLM Responses through Multi-Attribute Human Evaluation [14.243791046586347]
継続的な治療のギャップ、可用性、資格あるセラピストの不足を特徴とする世界的なメンタルヘルス危機のエスカレートは、スケーラブルなサポートのための有望な道として、Large Language Models (LLMs) を位置づけている。
本稿では,治療対話におけるLLM生成応答の評価を目的とした人為的評価手法を提案する。
論文 参考訳(メタデータ) (2026-01-26T16:04:19Z) - RubRIX: Rubric-Driven Risk Mitigation in Caregiver-AI Interactions [15.539654835961294]
本稿では,AIによるサポート応答のリスクを評価するための理論駆動型臨床検証フレームワークであるRubRIXを紹介する。
RubRIXは、インタテンション、バイアス&スティグマ、インフォメーション不正確、不臨界確認、エピステマアロガンスという、経験的に派生した5つのリスクディメンションを運用している。
この研究は、高バーデンコンテキストのためのドメイン依存型ユーザ中心評価フレームワークを開発するための方法論的アプローチに寄与する。
論文 参考訳(メタデータ) (2026-01-19T17:10:49Z) - PAIR-SAFE: A Paired-Agent Approach for Runtime Auditing and Refining AI-Mediated Mental Health Support [18.251267901872886]
大規模言語モデル(LLM)は、メンタルヘルスのサポートにますます利用されている。
LLMは、過度に指示的、一貫性のない、または臨床的に不一致な応答を生成することができる。
PAIR-SAFEはAIによるメンタルヘルスサポートの監査と改善のためのペアエージェントフレームワークである。
論文 参考訳(メタデータ) (2026-01-19T06:20:57Z) - Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL [64.3268313484078]
大規模言語モデル(LLM)は、顧客サポート、教育、医療など、世界中の何百万もの人々と対話する。
故意であれ不注意であれ、偽りのアウトプットを生産する能力は、重大な安全上の懸念を生じさせる。
本研究では, LLM が会話中の偽装にどの程度関与しているかを考察し, 偽装を定量化する信念の誤調整尺度を提案する。
論文 参考訳(メタデータ) (2025-10-16T05:29:36Z) - Between Help and Harm: An Evaluation of Mental Health Crisis Handling by LLMs [6.0460961868478975]
臨床的にインフォームドされた6つのメンタルヘルス危機カテゴリーの統一分類を導入する。
我々は、危機タイプを分類し、安全で適切な応答を生成する能力のために、3つの最先端のLCMをベンチマークする。
間接的または曖昧なリスク信号の処理におけるシステム的弱点、定式的および不完全なデフォルト応答への依存、およびユーザコンテキストとの頻繁な不一致を識別する。
論文 参考訳(メタデータ) (2025-09-29T14:42:23Z) - Teaching Language Models To Gather Information Proactively [53.85419549904644]
大規模言語モデル(LLM)は、ますます協力的なパートナーとして機能することが期待されている。
本研究では,アクティブな情報収集という新たなタスクパラダイムを導入する。
キー情報をマスキングする、部分的に特定された現実世界のタスクを生成するスケーラブルなフレームワークを設計する。
このセットアップの中核となるイノベーションは、真に新しい暗黙のユーザー情報を引き出す質問に報酬を与える、強化された微調整戦略です。
論文 参考訳(メタデータ) (2025-07-28T23:50:09Z) - Medical Red Teaming Protocol of Language Models: On the Importance of User Perspectives in Healthcare Settings [48.096652370210016]
本稿では,患者と臨床医の両方の視点で医療領域に適した安全評価プロトコルを提案する。
医療用LLMの安全性評価基準を3つの異なる視点を取り入れたレッドチームで定義した最初の研究である。
論文 参考訳(メタデータ) (2025-07-09T19:38:58Z) - TAMA: A Human-AI Collaborative Thematic Analysis Framework Using Multi-Agent LLMs for Clinical Interviews [54.35097932763878]
Thematic Analysis (TA) は、構造化されていないテキストデータの潜在意味を明らかにするために広く使われている定性的手法である。
本稿では,多エージェントLEMを用いた人間とAIの協調的テーマ分析フレームワークTAMAを提案する。
TAMA は既存の LLM 支援TA アプローチよりも優れており,高い主題的ヒット率,カバレッジ,独特性を実現している。
論文 参考訳(メタデータ) (2025-03-26T15:58:16Z) - Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models [55.332004960574004]
大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。
本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。
本稿では,LLMが応答を生成する方法を説明し,プロンプトと応答の不確実性の関係を理解するためのプロンプト応答の概念モデルを提案する。
論文 参考訳(メタデータ) (2024-07-20T11:19:58Z) - Rel-A.I.: An Interaction-Centered Approach To Measuring Human-LM Reliance [73.19687314438133]
インタラクションの文脈的特徴が依存に与える影響について検討する。
文脈特性が人間の信頼行動に大きく影響していることが判明した。
これらの結果から,キャリブレーションと言語品質だけでは人間とLMの相互作用のリスクを評価するには不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-07-10T18:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。