論文の概要: NurValues: Real-World Nursing Values Evaluation for Large Language Models in Clinical Context
- arxiv url: http://arxiv.org/abs/2505.08734v1
- Date: Tue, 13 May 2025 16:46:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.6771
- Title: NurValues: Real-World Nursing Values Evaluation for Large Language Models in Clinical Context
- Title(参考訳): NurValues:臨床現場における大規模言語モデルの実世界看護価値評価
- Authors: Ben Yao, Qiuchi Li, Yazhou Zhang, Siyu Yang, Bohan Zhang, Prayag Tiwari, Jing Qin,
- Abstract要約: この研究は、看護価値アライメントのための最初のベンチマークを導入する。
国際的な看護法典から抽出された5つの中核的価値次元(Altruism, Human Dignity, Integrity, Justice, Professionalism)で構成されている。
このベンチマークは、3つの病院で5ヶ月にわたる縦断調査によって収集された1,100件の現実世界の看護行動から成っている。
- 参考スコア(独自算出の注目度): 21.36172897310228
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This work introduces the first benchmark for nursing value alignment, consisting of five core value dimensions distilled from international nursing codes: Altruism, Human Dignity, Integrity, Justice, and Professionalism. The benchmark comprises 1,100 real-world nursing behavior instances collected through a five-month longitudinal field study across three hospitals of varying tiers. These instances are annotated by five clinical nurses and then augmented with LLM-generated counterfactuals with reversed ethic polarity. Each original case is paired with a value-aligned and a value-violating version, resulting in 2,200 labeled instances that constitute the Easy-Level dataset. To increase adversarial complexity, each instance is further transformed into a dialogue-based format that embeds contextual cues and subtle misleading signals, yielding a Hard-Level dataset. We evaluate 23 state-of-the-art (SoTA) LLMs on their alignment with nursing values. Our findings reveal three key insights: (1) DeepSeek-V3 achieves the highest performance on the Easy-Level dataset (94.55), where Claude 3.5 Sonnet outperforms other models on the Hard-Level dataset (89.43), significantly surpassing the medical LLMs; (2) Justice is consistently the most difficult nursing value dimension to evaluate; and (3) in-context learning significantly improves alignment. This work aims to provide a foundation for value-sensitive LLMs development in clinical settings. The dataset and the code are available at https://huggingface.co/datasets/Ben012345/NurValues.
- Abstract(参考訳): この研究は、国際看護基準から抽出された5つのコアバリューディメンション(Altruism, Human Dignity, Integrity, Justice, Professionalism)からなる、看護価値アライメントのための最初のベンチマークを導入する。
このベンチマークは、さまざまな階層の3つの病院で5ヶ月にわたるフィールドスタディを通じて収集された、現実世界の看護行動インスタンス1,100から成っている。
これらの例は、5人の臨床看護師によって注釈され、その後、逆の倫理的極性を持つLSM生成の反事実によって拡張される。
各元のケースは、値整合性と値違反バージョンとペアリングされ、2,200のラベル付きインスタンスがEasy-Levelデータセットを構成する。
敵の複雑さを増大させるために、各インスタンスは、文脈的なキューと微妙な誤解を招く信号を埋め込んだ対話ベースのフォーマットに変換され、ハードレベルデータセットが生成される。
看護評価値との整合性から23種類のSOTA (State-of-the-art) LLMを評価した。
以上の結果から,(1)DeepSeek-V3 が Easy-Level データセット (94.55) で最高性能を達成し,Claude 3.5 Sonnet が Hard-Level データセット (89.43) で他のモデルよりも優れており,医学的 LLM を大幅に上回っていること,(2) ジャスティスは一貫して評価が難しい看護的価値次元であり,(3) 文脈内学習はアライメントを著しく改善していること,の3つが明らかになった。
本研究の目的は,臨床現場における価値感応性LLM開発の基礎を提供することである。
データセットとコードはhttps://huggingface.co/datasets/Ben012345/NurValuesで入手できる。
関連論文リスト
- Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - RIDE: Enhancing Large Language Model Alignment through Restyled In-Context Learning Demonstration Exemplars [57.6513924960128]
調整調整は、大きな言語モデル(LLM)が倫理的かつ有用な振る舞いを確実にするために不可欠である。
本稿では,LLMアライメントを向上させるために,ICL(In-context Learning)を用いた低コストでチューニング不要な手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T11:16:19Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - A dataset and benchmark for hospital course summarization with adapted large language models [4.091402760759184]
大規模言語モデル(LLM)は、現実世界のタスクを自動化する際、顕著な能力を示しているが、医療応用の能力は示されていない。
臨床ノートと短い病院コースをカプセル化したMIMIC-IV-BHC(MIMIC-IV-BHC)を導入した。
臨床ノートを入力として,3つのオープンソースLSMと2つの独自LSMに対して,プロンプトベース(文脈内学習)と微調整ベースの適応戦略を適用した。
論文 参考訳(メタデータ) (2024-03-08T23:17:55Z) - SoftTiger: A Clinical Foundation Model for Healthcare Workflows [5.181665205189493]
医療基盤モデルとして設計された臨床用大規模言語モデル(CLaM)であるSoftTigerを紹介する。
我々は,3つのサブタスク,すなわち国際患者要約,臨床印象,医療的出会いのデータを収集し,注釈する。
公立および認証臨床データを用いて,最先端のLCMの微調整を指導した。
論文 参考訳(メタデータ) (2024-03-01T04:39:16Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。