Fugu-MT 論文翻訳(概要): An Active Inference Strategy for Prompting Reliable Responses from Large Language Models in Medical Practice

論文の概要: An Active Inference Strategy for Prompting Reliable Responses from Large Language Models in Medical Practice

arxiv url: http://arxiv.org/abs/2407.21051v1
Date: Tue, 23 Jul 2024 05:00:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-04 19:28:03.110426
Title: An Active Inference Strategy for Prompting Reliable Responses from Large Language Models in Medical Practice
Title（参考訳）: 医療現場における大規模言語モデルからの信頼度向上のためのアクティブ推論戦略
Authors: Roma Shusterman, Allison C. Waters, Shannon O`Neill, Phan Luu, Don M. Tucker,
Abstract要約: 大規模言語モデル(LLM)は非決定論的であり、誤ったあるいは有害な応答を与え、品質管理を保証するために規制できない。提案フレームワークは, 評価された医療情報を含むドメイン固有のデータセットに対して, 一次知識ベースを限定することにより, LLM応答を改良する。不眠症治療士に対する専門的認知行動療法をブラインド形式で評価した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Continuing advances in Large Language Models (LLMs) in artificial intelligence offer important capacities in intuitively accessing and using medical knowledge in many contexts, including education and training as well as assessment and treatment. Most of the initial literature on LLMs in medicine has emphasized that LLMs are unsuitable for medical use because they are non-deterministic, may provide incorrect or harmful responses, and cannot be regulated to assure quality control. If these issues could be corrected, optimizing LLM technology could benefit patients and physicians by providing affordable, point-of-care medical knowledge. Our proposed framework refines LLM responses by restricting their primary knowledge base to domain-specific datasets containing validated medical information. Additionally, we introduce an actor-critic LLM prompting protocol based on active inference principles of human cognition, where a Therapist agent initially responds to patient queries, and a Supervisor agent evaluates and adjusts responses to ensure accuracy and reliability. We conducted a validation study where expert cognitive behaviour therapy for insomnia (CBT-I) therapists evaluated responses from the LLM in a blind format. Experienced human CBT-I therapists assessed responses to 100 patient queries, comparing LLM-generated responses with appropriate and inappropriate responses crafted by experienced CBT-I therapists. Results showed that LLM responses received high ratings from the CBT-I therapists, often exceeding those of therapist-generated appropriate responses. This structured approach aims to integrate advanced LLM technology into medical applications, meeting regulatory requirements for establishing the safe and effective use of special purpose validated LLMs in medicine.
Abstract（参考訳）: 人工知能におけるLarge Language Models(LLM)の継続的な進歩は、教育や訓練、評価や治療など、多くの文脈において、直感的に医療知識にアクセスし、利用する上で重要な能力を提供する。医学におけるLSMに関する初期の文献の多くは、LSMは非決定論的であり、誤ったまたは有害な応答を与え、品質管理を保証するために規制できないため、医療用途には適さないと強調している。これらの問題が修正できれば、LLM技術の最適化は、安価な医療知識を提供することで、患者や医師に利益をもたらす可能性がある。提案フレームワークは, 評価された医療情報を含むドメイン固有のデータセットに対して, 一次知識ベースを限定することにより, LLM応答を改良する。さらに,セラピストエージェントが患者クエリに最初に応答し,スーパーバイザエージェントが応答を評価し,精度と信頼性を確保する。不眠症に対する専門的認知行動療法(CBT-I)をブラインド形式で評価した。経験豊富なヒトCBT-Iセラピストは、100の患者クエリに対する反応を評価し、LCM生成した反応と、経験豊富なCBT-Iセラピストによる適切な不適切な反応を比較した。その結果,LSM反応はCBT-I療法士から高い評価を受けており,セラピストが生成する適切な反応を上回ることが多かった。この構造的アプローチは、医療応用に先進的なLSM技術を統合することを目的としており、医療における特別目的のLSMの安全かつ効果的な利用を確立するための規制要件を満たすことを目的としている。

関連論文リスト

Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文参考訳（メタデータ） (2025-04-21T16:51:11Z)
Addressing Overprescribing Challenges: Fine-Tuning Large Language Models for Medication Recommendation Tasks [46.95099594570405]
医療レコメンデーションシステムは、患者の臨床データに基づいて、パーソナライズされた効果的な薬物の組み合わせを提供する可能性について、医療機関内で注目を集めている。既存の手法は、多様な電子健康記録(EHR)システムに適応する際の課題に直面する。本稿では,Language-Assisted Medication Recommendation (LAMO)を提案する。
論文参考訳（メタデータ） (2025-03-05T17:28:16Z)
Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
Fact or Guesswork? Evaluating Large Language Model's Medical Knowledge with Structured One-Hop Judgment [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし適用する能力はいまだ探索されていない。既存の医療QAベンチマークの多くは、複雑な推論やマルチホップ推論を評価しており、LSM固有の医療知識を推論能力から切り離すことが困難である。 LLMの1ホップの医療知識を測定するために特別に設計されたデータセットであるMedical Knowledge Judgmentを紹介する。
論文参考訳（メタデータ） (2025-02-20T05:27:51Z)
Med-R$^2$: Crafting Trustworthy LLM Physicians via Retrieval and Reasoning of Evidence-Based Medicine [40.651632523697536]
大言語モデル(LLM)は臨床シナリオにおいて顕著な機能を示した。我々はEvidence-Based Medicine(EBM)プロセスに準拠した新しいフレームワークであるMed-R2を紹介する。実験の結果, Med-R2はバニラRAG法よりも14.74%改善し, 微調整法に比べて3.32%向上した。
論文参考訳（メタデータ） (2025-01-21T04:40:43Z)
Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文参考訳（メタデータ） (2024-11-14T06:19:18Z)
Demystifying Large Language Models for Medicine: A Primer [50.83806796466396]
大規模言語モデル(LLM)は、医療のさまざまな側面に革命をもたらすことのできる、変革的なAIツールのクラスである。本チュートリアルは、LSMを臨床実践に効果的に統合するために必要なツールを医療専門家に提供することを目的としている。
論文参考訳（メタデータ） (2024-10-24T15:41:56Z)
CBT-Bench: Evaluating Large Language Models on Assisting Cognitive Behavior Therapy [67.23830698947637]
認知行動療法(CBT)支援の体系的評価のための新しいベンチマークであるCBT-BENCHを提案する。我々は, CBT-BENCHにおける3段階の課題を含む: I: 基本的CBT知識獲得, 複数選択質問のタスク; II: 認知的モデル理解, 認知的歪み分類, 主根的信念分類, きめ細かい中核信念分類のタスク; III: 治療的応答生成, CBTセラピーセッションにおける患者音声に対する応答生成のタスク。実験結果から,LLMはCBT知識のリサイティングに優れるが,複雑な実世界のシナリオでは不十分であることが示唆された。
論文参考訳（メタデータ） (2024-10-17T04:52:57Z)
PALLM: Evaluating and Enhancing PALLiative Care Conversations with Large Language Models [10.258261180305439]
大規模言語モデル(LLM)は、複雑なコミュニケーションメトリクスを評価するための新しいアプローチを提供する。 LLMは受動的センシングシステムとジャスト・イン・タイム・イン・タイム・イン・イン・介入システムとの統合を通じて、分野を前進させる可能性を提供する。本研究は, 言語, 文脈内学習, 推論能力を活用した緩和ケアコミュニケーションの質評価手法としてLLMについて検討する。
論文参考訳（メタデータ） (2024-09-23T16:39:12Z)
RuleAlign: Making Large Language Models Better Physicians with Diagnostic Rule Alignment [54.91736546490813]
本稿では,大規模言語モデルと特定の診断規則との整合性を考慮したルールアラインフレームワークを提案する。患者と医師間の規則に基づくコミュニケーションを含む医療対話データセットを開発した。実験の結果,提案手法の有効性が示された。
論文参考訳（メタデータ） (2024-08-22T17:44:40Z)
A Survey on Large Language Models from General Purpose to Medical Applications: Datasets, Methodologies, and Evaluations [5.265452667976959]
本調査は,オープンソース汎用LSMをベースとした医療用LSMのトレーニング方法を体系的にまとめたものである。 a) トレーニングコーパスの取得方法、カスタマイズされた医療トレーニングセットの構築方法、(b) 適切なトレーニングパラダイムの選択方法、(d) 既存の課題と有望な研究方向性をカバーしている。
論文参考訳（メタデータ） (2024-06-14T02:42:20Z)
Towards Automatic Evaluation for LLMs' Clinical Capabilities: Metric, Data, and Algorithm [15.627870862369784]
大規模言語モデル (LLMs) は, 臨床診断の効率向上への関心が高まっている。臨床サービス提供におけるLCMの能力を評価するための自動評価パラダイムを提案する。
論文参考訳（メタデータ） (2024-03-25T06:17:54Z)
LLM on FHIR -- Demystifying Health Records [0.32985979395737786]
本研究では,大規模言語モデル(LLM)を用いた健康記録と対話可能なアプリを開発した。このアプリは、医療データを患者フレンドリーな言語に効果的に翻訳し、その反応を異なる患者プロファイルに適応させることができた。
論文参考訳（メタデータ） (2024-01-25T17:45:34Z)
A Computational Framework for Behavioral Assessment of LLM Therapists [7.665475687919995]
ChatGPTのような大規模言語モデル(LLM)は、精神的な健康問題に対処するためのセラピストとしての使用に対する関心が高まっている。 LLMセラピストの会話行動を体系的に評価するための概念実証フレームワークBOLTを提案する。
論文参考訳（メタデータ） (2024-01-01T17:32:28Z)
ChiMed-GPT: A Chinese Medical Large Language Model with Full Training Regime and Better Alignment to Human Preferences [51.66185471742271]
我々は中国医学領域向けに明示的に設計されたベンチマークLSMであるChiMed-GPTを提案する。 ChiMed-GPTは、事前訓練、SFT、RLHFを含む総合的な訓練体制を実施。我々は,ChiMed-GPTを患者識別に関する態度尺度の実行を促すことによって,潜在的なバイアスを分析した。
論文参考訳（メタデータ） (2023-11-10T12:25:32Z)
An Automatic Evaluation Framework for Multi-turn Medical Consultations Capabilities of Large Language Models [22.409334091186995]
大型言語モデル(LLM)はしばしば幻覚に悩まされ、過度に自信があるが誤った判断を下す。本稿では,マルチターンコンサルテーションにおける仮想医師としてのLCMの実用能力を評価するための自動評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-09-05T09:24:48Z)
Medical Misinformation in AI-Assisted Self-Diagnosis: Development of a Method (EvalPrompt) for Analyzing Large Language Models [4.8775268199830935]
本研究は、自己診断ツールとしての大規模言語モデル(LLM)の有効性と、医療情報の拡散における役割を評価することを目的とする。我々は,実世界の自己診断を模倣するオープンエンド質問を用いて,現実的な自己診断を模倣する文のドロップアウトを行い,情報不足を伴う現実的な自己診断を模倣する。その結果, LLMの応答が不明確で不正確な場合が多いため, LLMの質素な機能を強調した。
論文参考訳（メタデータ） (2023-07-10T21:28:26Z)
Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文参考訳（メタデータ） (2023-05-30T22:05:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。