Fugu-MT 論文翻訳(概要): Do Physicians Know How to Prompt? The Need for Automatic Prompt Optimization Help in Clinical Note Generation

論文の概要: Do Physicians Know How to Prompt? The Need for Automatic Prompt Optimization Help in Clinical Note Generation

arxiv url: http://arxiv.org/abs/2311.09684v3
Date: Fri, 5 Jul 2024 09:14:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-09 00:42:23.829580
Title: Do Physicians Know How to Prompt? The Need for Automatic Prompt Optimization Help in Clinical Note Generation
Title（参考訳）: 医師はプロンプトの仕方を知っているか? : 臨床ノート作成における自動プロンプト最適化支援の必要性
Authors: Zonghai Yao, Ahmed Jaafar, Beining Wang, Zhichao Yang, Hong Yu,
Abstract要約: 本稿では,医療専門家,非医療専門家,APO強化GPT3.5およびGPT4のアウトプットを比較し,初期プロンプトを洗練するための自動プロンプト最適化フレームワークを提案する。その結果, GPT4 APO は, 臨床検査項目間での即時品質の標準化に優れていた。 Human-in-the-loopアプローチは、専門家が自身の修正を好みながら、APO以降のコンテンツ品質を維持することを示している。
参考スコア（独自算出の注目度）: 7.434565130637974
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This study examines the effect of prompt engineering on the performance of Large Language Models (LLMs) in clinical note generation. We introduce an Automatic Prompt Optimization (APO) framework to refine initial prompts and compare the outputs of medical experts, non-medical experts, and APO-enhanced GPT3.5 and GPT4. Results highlight GPT4 APO's superior performance in standardizing prompt quality across clinical note sections. A human-in-the-loop approach shows that experts maintain content quality post-APO, with a preference for their own modifications, suggesting the value of expert customization. We recommend a two-phase optimization process, leveraging APO-GPT4 for consistency and expert input for personalization.
Abstract（参考訳）: 本研究は,臨床ノート作成における言語モデル(LLM)の性能に及ぼすプロンプトエンジニアリングの影響について検討する。本稿では,医療専門家,非医療専門家,APPO強化GPT3.5およびGPT4のアウトプットを比較し,初期プロンプトを洗練するための自動プロンプト最適化(APO)フレームワークを提案する。その結果, GPT4 APO は, 臨床検査項目間での即時品質の標準化に優れていた。 Human-in-the-loopアプローチは、専門家が自身の修正を好んでAPO以降のコンテンツ品質を維持することを示し、専門家のカスタマイズの価値を示唆している。整合性にはAPO-GPT4、パーソナライズにはエキスパートインプットを利用する2相最適化プロセスを提案する。

関連論文リスト

Prompt Triage: Structured Optimization Enhances Vision-Language Model Performance on Medical Imaging Benchmarks [5.200534363670116]
ヴィジュアル言語基礎モデル(VLM)は様々なイメージングタスクを約束するが、しばしば医療ベンチマークでは性能が劣る。我々は、医療ビジョン言語システムにおける構造化された自動プロンプト最適化のための宣言的自己改善Pythonフレームワークに適応する。我々は,放射線学,消化器学,皮膚学にまたがる5つの医療画像処理のためのプロンプトパイプラインを実装し,4つのプロンプト最適化手法を用いて10個のオープンソースVLMを評価した。
論文参考訳（メタデータ） (2025-11-14T22:01:08Z)
Retrieval-Augmented Generation of Pediatric Speech-Language Pathology vignettes: A Proof-of-Concept Study [0.0]
汎用大規模言語モデル(LLM)はテキストを生成することができるが、ドメイン固有の知識が欠如しており、幻覚と専門家の修正を必要とする。本研究では,検索強化世代(RAG)とキュレートされた知識ベースを統合し,小児SLP症例資料を生成する概念実証システムを提案する。
論文参考訳（メタデータ） (2025-11-01T23:35:19Z)
Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-12T09:03:30Z)
A Modular Approach for Clinical SLMs Driven by Synthetic Data with Pre-Instruction Tuning, Model Merging, and Clinical-Tasks Alignment [46.776978552161395]
小型言語モデル(SLM)は、GPT-4のような大規模言語モデルに代わる費用対効果を提供する。 SLMは費用対効果のある代替手段を提供するが、その限られた能力は生物医学的な領域適応を必要とする。本研究では,SLMを高性能な臨床モデルに適用するための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-15T21:40:21Z)
GPT-4 on Clinic Depression Assessment: An LLM-Based Pilot Study [0.6999740786886538]
転写解析に基づく臨床うつ病評価におけるGPT-4の使用について検討した。本稿では,患者インタビューを2つのカテゴリーに分類するモデルの能力について検討する。その結果, GPT-4の精度およびF1スコアは, 構成によって大きく変動することが示唆された。
論文参考訳（メタデータ） (2024-12-31T00:32:43Z)
Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文参考訳（メタデータ） (2024-10-26T14:24:37Z)
Fine Tuning Large Language Models for Medicine: The Role and Importance of Direct Preference Optimization [2.096816583842973]
ファインチューニングの最も一般的な2つの方法は、スーパーバイザード・ファインチューニング(SFT)と直接選好最適化(DPO)である。医学における5つの共通自然言語タスクにおけるSFTとDPOの性能を比較した。 SFTだけではテキストデータの分類に十分であるのに対し、DPOは、より複雑な臨床推論、要約、臨床トリアージのタスクのパフォーマンスを向上させる。
論文参考訳（メタデータ） (2024-09-19T13:03:24Z)
RuleAlign: Making Large Language Models Better Physicians with Diagnostic Rule Alignment [54.91736546490813]
本稿では,大規模言語モデルと特定の診断規則との整合性を考慮したルールアラインフレームワークを提案する。患者と医師間の規則に基づくコミュニケーションを含む医療対話データセットを開発した。実験の結果,提案手法の有効性が示された。
論文参考訳（メタデータ） (2024-08-22T17:44:40Z)
High-Throughput Phenotyping of Clinical Text Using Large Language Models [0.0]
GPT-4はGPT-3.5-Turboを上回り、識別、分類、正規化を行う。 GPT-4は複数の表現型タスクにまたがって高い性能と一般化性をもたらす。
論文参考訳（メタデータ） (2024-08-02T12:00:00Z)
Iterative Length-Regularized Direct Preference Optimization: A Case Study on Improving 7B Language Models to GPT-4 Level [50.897438358317686]
また, iLR-DPOは, 冗長性を増大させることなく, GPT-4と同等の7Bモデルを実現できることを示した。具体的には、我々の7Bモデルは、AlpacaEval 2.0で$texttGPT-4 Preview$に対して50.5%の利益率を達成する。
論文参考訳（メタデータ） (2024-06-17T17:55:38Z)
FIPO: Free-form Instruction-oriented Prompt Optimization with Preference Dataset and Modular Fine-tuning Schema [36.65009632307124]
大規模言語モデル(LLM)のタスク性能向上のためのFIPO(Free-from Instruction-oriented Prompt Optimization)を提案する。 FIPOはモジュール型のAPOテンプレートを使用して、単純で最適化されたプロンプトを生成するために、ナイーブなタスク命令、オプションの命令応答、オプションの接地真理を動的に統合する。 5つの公開ベンチマークと6つのテストモデルでFIPOフレームワークを検証する。
論文参考訳（メタデータ） (2024-02-19T03:56:44Z)
Enhancing Medical Task Performance in GPT-4V: A Comprehensive Study on Prompt Engineering Strategies [28.98518677093905]
OpenAIの最新大型ビジョン言語モデルであるGPT-4Vは、医療応用の可能性についてかなりの関心を集めている。最近の研究や内部レビューでは、専門的な医療業務における過小評価が強調されている。本稿では,GPT-4Vの医療機能の境界,特に内視鏡,CT,MRIなどの複雑な画像データ処理について検討する。
論文参考訳（メタデータ） (2023-12-07T15:05:59Z)
Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case Study in Medicine [89.46836590149883]
本研究は, GPT-4の医学的課題評価における能力について, 専門訓練の欠如による先行研究に基づくものである。イノベーションを促進することで、より深い専門能力が解放され、GPT-4が医学ベンチマークの先行結果に容易に勝っていることが分かる。 Medpromptを使用すると、GPT-4はMultiMedQAスイートのベンチマークデータセットの9つすべてに対して最先端の結果を得る。
論文参考訳（メタデータ） (2023-11-28T03:16:12Z)
ExpertPrompting: Instructing Large Language Models to be Distinguished Experts [93.58012324415762]
ExpertPromptingは、著名な専門家として答えるために、大きな言語モデルの可能性を秘めている。我々はGPT-3.5を使って新しい命令追跡データを作成し、ExpertLLaMAと呼ばれる競合するオープンソースのチャットアシスタントを訓練する。
論文参考訳（メタデータ） (2023-05-24T03:51:31Z)
GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文参考訳（メタデータ） (2023-03-15T17:15:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。