論文の概要: Do Physicians Know How to Prompt? The Need for Automatic Prompt Optimization Help in Clinical Note Generation
- arxiv url: http://arxiv.org/abs/2311.09684v3
- Date: Fri, 5 Jul 2024 09:14:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 00:42:23.829580
- Title: Do Physicians Know How to Prompt? The Need for Automatic Prompt Optimization Help in Clinical Note Generation
- Title(参考訳): 医師はプロンプトの仕方を知っているか? : 臨床ノート作成における自動プロンプト最適化支援の必要性
- Authors: Zonghai Yao, Ahmed Jaafar, Beining Wang, Zhichao Yang, Hong Yu,
- Abstract要約: 本稿では,医療専門家,非医療専門家,APO強化GPT3.5およびGPT4のアウトプットを比較し,初期プロンプトを洗練するための自動プロンプト最適化フレームワークを提案する。
その結果, GPT4 APO は, 臨床検査項目間での即時品質の標準化に優れていた。
Human-in-the-loopアプローチは、専門家が自身の修正を好みながら、APO以降のコンテンツ品質を維持することを示している。
- 参考スコア(独自算出の注目度): 7.434565130637974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study examines the effect of prompt engineering on the performance of Large Language Models (LLMs) in clinical note generation. We introduce an Automatic Prompt Optimization (APO) framework to refine initial prompts and compare the outputs of medical experts, non-medical experts, and APO-enhanced GPT3.5 and GPT4. Results highlight GPT4 APO's superior performance in standardizing prompt quality across clinical note sections. A human-in-the-loop approach shows that experts maintain content quality post-APO, with a preference for their own modifications, suggesting the value of expert customization. We recommend a two-phase optimization process, leveraging APO-GPT4 for consistency and expert input for personalization.
- Abstract(参考訳): 本研究は,臨床ノート作成における言語モデル(LLM)の性能に及ぼすプロンプトエンジニアリングの影響について検討する。
本稿では,医療専門家,非医療専門家,APPO強化GPT3.5およびGPT4のアウトプットを比較し,初期プロンプトを洗練するための自動プロンプト最適化(APO)フレームワークを提案する。
その結果, GPT4 APO は, 臨床検査項目間での即時品質の標準化に優れていた。
Human-in-the-loopアプローチは、専門家が自身の修正を好んでAPO以降のコンテンツ品質を維持することを示し、専門家のカスタマイズの価値を示唆している。
整合性にはAPO-GPT4、パーソナライズにはエキスパートインプットを利用する2相最適化プロセスを提案する。
関連論文リスト
- Iterative Length-Regularized Direct Preference Optimization: A Case Study on Improving 7B Language Models to GPT-4 Level [50.897438358317686]
また, iLR-DPOは, 冗長性を増大させることなく, GPT-4と同等の7Bモデルを実現できることを示した。
具体的には、我々の7Bモデルは、AlpacaEval 2.0で$texttGPT-4 Preview$に対して50.5%の利益率を達成する。
論文 参考訳(メタデータ) (2024-06-17T17:55:38Z) - SYNFAC-EDIT: Synthetic Imitation Edit Feedback for Factual Alignment in Clinical Summarization [6.130435789368263]
大規模言語モデル(LLM)は、要約タスクにおいて重要な成果を示したが、事実的不正確さに苦慮している。
専門家がアノテートしたデータの高コスト化と可用性の限界に対処するため,本研究では革新的なパイプラインを導入する。
100B以上のGPTの変種を利用して、専門家レベルの編集フィードバックを提供する合成フィードバックエキスパートとして機能します。
論文 参考訳(メタデータ) (2024-02-21T16:33:22Z) - FIPO: Free-form Instruction-oriented Prompt Optimization with Preference Dataset and Modular Fine-tuning Schema [36.65009632307124]
大規模言語モデル(LLM)のタスク性能向上のためのFIPO(Free-from Instruction-oriented Prompt Optimization)を提案する。
FIPOはモジュール型のAPOテンプレートを使用して、単純で最適化されたプロンプトを生成するために、ナイーブなタスク命令、オプションの命令応答、オプションの接地真理を動的に統合する。
5つの公開ベンチマークと3つのテストモデルでFIPOフレームワークを検証する。
論文 参考訳(メタデータ) (2024-02-19T03:56:44Z) - Enhancing Medical Task Performance in GPT-4V: A Comprehensive Study on
Prompt Engineering Strategies [28.98518677093905]
OpenAIの最新大型ビジョン言語モデルであるGPT-4Vは、医療応用の可能性についてかなりの関心を集めている。
最近の研究や内部レビューでは、専門的な医療業務における過小評価が強調されている。
本稿では,GPT-4Vの医療機能の境界,特に内視鏡,CT,MRIなどの複雑な画像データ処理について検討する。
論文 参考訳(メタデータ) (2023-12-07T15:05:59Z) - Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case
Study in Medicine [89.46836590149883]
本研究は, GPT-4の医学的課題評価における能力について, 専門訓練の欠如による先行研究に基づくものである。
イノベーションを促進することで、より深い専門能力が解放され、GPT-4が医学ベンチマークの先行結果に容易に勝っていることが分かる。
Medpromptを使用すると、GPT-4はMultiMedQAスイートのベンチマークデータセットの9つすべてに対して最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-28T03:16:12Z) - PromptAgent: Strategic Planning with Language Models Enables
Expert-level Prompt Optimization [60.00631098364391]
PromptAgentは、エキスパートレベルのプロンプトを、専門家による手工芸品と同等の品質で作成する最適化手法である。
PromptAgentは人間のような試行錯誤の探索にインスパイアされ、専門家レベルの正確な洞察と詳細な指示を誘導する。
PromptAgentを3つの実践領域にまたがる12のタスクに適用する。
論文 参考訳(メタデータ) (2023-10-25T07:47:01Z) - ExpertPrompting: Instructing Large Language Models to be Distinguished
Experts [93.58012324415762]
ExpertPromptingは、著名な専門家として答えるために、大きな言語モデルの可能性を秘めている。
我々はGPT-3.5を使って新しい命令追跡データを作成し、ExpertLLaMAと呼ばれる競合するオープンソースのチャットアシスタントを訓練する。
論文 参考訳(メタデータ) (2023-05-24T03:51:31Z) - Capabilities of GPT-4 on Medical Challenge Problems [23.399857819743158]
GPT-4は、訓練や臨床課題の解決を通じて医療上の問題に特化しない汎用モデルである。
本稿では,GPT-4の総合的な評価を医学的能力試験とベンチマーク・データセットで行う。
論文 参考訳(メタデータ) (2023-03-20T16:18:38Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z) - Consultation Checklists: Standardising the Human Evaluation of Medical
Note Generation [58.54483567073125]
本稿では,コンサルテーションチェックリストの評価を基礎として,客観性向上を目的としたプロトコルを提案する。
このプロトコルを用いた最初の評価研究において,アノテータ間合意の良好なレベルを観察した。
論文 参考訳(メタデータ) (2022-11-17T10:54:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。