論文の概要: Do Physicians Know How to Prompt? The Need for Automatic Prompt
Optimization Help in Clinical Note Generation
- arxiv url: http://arxiv.org/abs/2311.09684v1
- Date: Thu, 16 Nov 2023 08:54:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 15:33:30.663802
- Title: Do Physicians Know How to Prompt? The Need for Automatic Prompt
Optimization Help in Clinical Note Generation
- Title(参考訳): 医師は突き刺す方法を知っているか?
臨床ノート作成における自動プロンプト最適化支援の必要性
- Authors: Zonghai Yao, Ahmed Jaafar, Beining Wang, Yue Zhu, Zhichao Yang, Hong
Yu
- Abstract要約: 本稿では,医療専門家,非医療専門家,APO強化GPT3.5およびGPT4のアウトプットを比較し,初期プロンプトを洗練するための自動プロンプト最適化フレームワークを提案する。
その結果, GPT4 APO は, 臨床検査項目間での即時品質の標準化に優れていた。
Human-in-the-loopアプローチは、専門家が自身の修正を好みながら、APO以降のコンテンツ品質を維持することを示している。
- 参考スコア(独自算出の注目度): 7.928268707936675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study examines the effect of prompt engineering on the performance of
Large Language Models (LLMs) in clinical note generation. We introduce an
Automatic Prompt Optimization (APO) framework to refine initial prompts and
compare the outputs of medical experts, non-medical experts, and APO-enhanced
GPT3.5 and GPT4. Results highlight GPT4 APO's superior performance in
standardizing prompt quality across clinical note sections. A human-in-the-loop
approach shows that experts maintain content quality post-APO, with a
preference for their own modifications, suggesting the value of expert
customization. We recommend a two-phase optimization process, leveraging
APO-GPT4 for consistency and expert input for personalization.
- Abstract(参考訳): 本研究は,臨床ノート作成における言語モデル(LLM)の性能に及ぼす即時工学の影響について検討する。
本稿では,医療専門家,非医療専門家,APPO強化GPT3.5およびGPT4のアウトプットを比較し,初期プロンプトを洗練するための自動プロンプト最適化(APO)フレームワークを提案する。
その結果, GPT4 APO は, 臨床検査項目間での即時品質の標準化に優れていた。
Human-in-the-loopアプローチは、専門家が自身の修正を好んでAPO以降のコンテンツ品質を維持することを示し、専門家のカスタマイズの価値を示唆している。
整合性にはAPO-GPT4、パーソナライズにはエキスパートインプットを利用する2相最適化プロセスを提案する。
関連論文リスト
- Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - Fine Tuning Large Language Models for Medicine: The Role and Importance of Direct Preference Optimization [2.096816583842973]
ファインチューニングの最も一般的な2つの方法は、スーパーバイザード・ファインチューニング(SFT)と直接選好最適化(DPO)である。
医学における5つの共通自然言語タスクにおけるSFTとDPOの性能を比較した。
SFTだけではテキストデータの分類に十分であるのに対し、DPOは、より複雑な臨床推論、要約、臨床トリアージのタスクのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2024-09-19T13:03:24Z) - RuleAlign: Making Large Language Models Better Physicians with Diagnostic Rule Alignment [54.91736546490813]
本稿では,大規模言語モデルと特定の診断規則との整合性を考慮したルールアラインフレームワークを提案する。
患者と医師間の規則に基づくコミュニケーションを含む医療対話データセットを開発した。
実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-08-22T17:44:40Z) - High-Throughput Phenotyping of Clinical Text Using Large Language Models [0.0]
GPT-4はGPT-3.5-Turboを上回り、識別、分類、正規化を行う。
GPT-4は複数の表現型タスクにまたがって高い性能と一般化性をもたらす。
論文 参考訳(メタデータ) (2024-08-02T12:00:00Z) - Iterative Length-Regularized Direct Preference Optimization: A Case Study on Improving 7B Language Models to GPT-4 Level [50.897438358317686]
また, iLR-DPOは, 冗長性を増大させることなく, GPT-4と同等の7Bモデルを実現できることを示した。
具体的には、我々の7Bモデルは、AlpacaEval 2.0で$texttGPT-4 Preview$に対して50.5%の利益率を達成する。
論文 参考訳(メタデータ) (2024-06-17T17:55:38Z) - FIPO: Free-form Instruction-oriented Prompt Optimization with Preference Dataset and Modular Fine-tuning Schema [36.65009632307124]
大規模言語モデル(LLM)のタスク性能向上のためのFIPO(Free-from Instruction-oriented Prompt Optimization)を提案する。
FIPOはモジュール型のAPOテンプレートを使用して、単純で最適化されたプロンプトを生成するために、ナイーブなタスク命令、オプションの命令応答、オプションの接地真理を動的に統合する。
5つの公開ベンチマークと6つのテストモデルでFIPOフレームワークを検証する。
論文 参考訳(メタデータ) (2024-02-19T03:56:44Z) - Enhancing Medical Task Performance in GPT-4V: A Comprehensive Study on
Prompt Engineering Strategies [28.98518677093905]
OpenAIの最新大型ビジョン言語モデルであるGPT-4Vは、医療応用の可能性についてかなりの関心を集めている。
最近の研究や内部レビューでは、専門的な医療業務における過小評価が強調されている。
本稿では,GPT-4Vの医療機能の境界,特に内視鏡,CT,MRIなどの複雑な画像データ処理について検討する。
論文 参考訳(メタデータ) (2023-12-07T15:05:59Z) - Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case
Study in Medicine [89.46836590149883]
本研究は, GPT-4の医学的課題評価における能力について, 専門訓練の欠如による先行研究に基づくものである。
イノベーションを促進することで、より深い専門能力が解放され、GPT-4が医学ベンチマークの先行結果に容易に勝っていることが分かる。
Medpromptを使用すると、GPT-4はMultiMedQAスイートのベンチマークデータセットの9つすべてに対して最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-28T03:16:12Z) - ExpertPrompting: Instructing Large Language Models to be Distinguished
Experts [93.58012324415762]
ExpertPromptingは、著名な専門家として答えるために、大きな言語モデルの可能性を秘めている。
我々はGPT-3.5を使って新しい命令追跡データを作成し、ExpertLLaMAと呼ばれる競合するオープンソースのチャットアシスタントを訓練する。
論文 参考訳(メタデータ) (2023-05-24T03:51:31Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。