論文の概要: AutoMedPrompt: A New Framework for Optimizing LLM Medical Prompts Using Textual Gradients
- arxiv url: http://arxiv.org/abs/2502.15944v1
- Date: Fri, 21 Feb 2025 21:17:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:55:38.106533
- Title: AutoMedPrompt: A New Framework for Optimizing LLM Medical Prompts Using Textual Gradients
- Title(参考訳): AutoMedPrompt: テキストグラディエントを用いたLLM医療プロンプトの最適化のための新しいフレームワーク
- Authors: Sean Wu, Michael Koo, Fabien Scalzo, Ira Kurtz,
- Abstract要約: 大規模言語モデル(LLM)は、医学やその他の知識分野において、ますます高度なパフォーマンスを示している。
近年の急進的な工学は微調整ではなく、一般的な基礎モデルの性能を高める可能性を示している。
本稿では,医学的関連推論のためのテキスト勾配の活用を探求するAutoMedPromptを提案する。
- 参考スコア(独自算出の注目度): 0.3636228980200798
- License:
- Abstract: Large language models (LLMs) have demonstrated increasingly sophisticated performance in medical and other fields of knowledge. Traditional methods of creating specialist LLMs require extensive fine-tuning and training of models on large datasets. Recently, prompt engineering, instead of fine-tuning, has shown potential to boost the performance of general foundation models. However, prompting methods such as chain-of-thought (CoT) may not be suitable for all subspecialty, and k-shot approaches may introduce irrelevant tokens into the context space. We present AutoMedPrompt, which explores the use of textual gradients to elicit medically relevant reasoning through system prompt optimization. AutoMedPrompt leverages TextGrad's automatic differentiation via text to improve the ability of general foundation LLMs. We evaluated AutoMedPrompt on Llama 3, an open-source LLM, using several QA benchmarks, including MedQA, PubMedQA, and the nephrology subspecialty-specific NephSAP. Our results show that prompting with textual gradients outperforms previous methods on open-source LLMs and surpasses proprietary models such as GPT-4, Claude 3 Opus, and Med-PaLM 2. AutoMedPrompt sets a new state-of-the-art (SOTA) performance on PubMedQA with an accuracy of 82.6$\%$, while also outperforming previous prompting strategies on open-sourced models for MedQA (77.7$\%$) and NephSAP (63.8$\%$).
- Abstract(参考訳): 大規模言語モデル(LLM)は、医学やその他の知識分野において、ますます高度なパフォーマンスを示している。
専門的なLLMを作成する従来の方法は、大規模なデータセット上でのモデルの広範囲な微調整とトレーニングを必要とする。
近年, ファインチューニングではなく, プロンプトエンジニアリングにより, 基礎モデルの性能が向上する可能性が示唆されている。
しかしながら、チェーン・オブ・シークレット(CoT)のようなプロンプト法はすべての亜種に適さないかもしれないし、kショットアプローチは文脈空間に無関係なトークンを導入するかもしれない。
本稿では,システムプロンプト最適化による医学的関連推論のためのテキストグラデーションの利用を探求するAutoMedPromptを提案する。
AutoMedPrompt は TextGrad のテキストによる自動微分を活用して,汎用 LLM の能力を向上させる。
MedQA,PubMedQA,nephrology subspecialty-specific NephSAPなど,いくつかのQAベンチマークを用いて,オープンソースのLLMであるLlama 3上でAutoMedPromptを評価した。
GPT-4, Claude 3 Opus, Med-PaLM 2 などのプロプライエタリなモデルよりも, 従来の LLM の手法よりもテキスト勾配の方が優れていた。
AutoMedPromptはPubMedQAに新しい最先端(SOTA)パフォーマンスを82.6$\%$で設定すると同時に、MedQA (77.7$\%$) とNephSAP (63.8$\%$) のオープンソースモデルにおける以前のプロンプト戦略よりも優れている。
関連論文リスト
- Leveraging Large Language Models for Medical Information Extraction and Query Generation [2.1793134762413433]
本稿では,大言語モデル(LLM)を臨床試験検索プロセスに統合するシステムを提案する。
クエリ生成には6つのLCMを評価し,最小限の計算資源を必要とする,オープンソースと比較的小さなモデルに着目した。
論文 参考訳(メタデータ) (2024-10-31T12:01:51Z) - Large Language Models for Medical OSCE Assessment: A Novel Approach to Transcript Analysis [0.0]
テキサス大学サウスウェスタン医療センター(UTSW)における2,027件のビデオ録画OSCE検査について検討した。
本研究は, 学生の要約作業において, LLMに基づく様々な手法による評価を行い, 評価書に基づいて評価を行った。
以上の結果から, GPT-4のようなフロンティアLLMモデルでは, 人間の学級とのアライメントが顕著であった。
論文 参考訳(メタデータ) (2024-10-11T19:16:03Z) - LlamaCare: A Large Medical Language Model for Enhancing Healthcare Knowledge Sharing [0.0]
24G GPUでChatGPTと同等の性能を示した。
PubMedQAやUSMLE 1-3など,いくつかのベンチマークを対象としたワンショットおよび数ショットトレーニングのための処理データをリリースしました。
論文 参考訳(メタデータ) (2024-06-04T14:24:53Z) - OpenMedLM: Prompt engineering can out-perform fine-tuning in medical
question-answering with open-source large language models [4.556924372105915]
オープンソース(OS)モデルは、医療用LDMにとって重要な成長領域である。
医用ベンチマークでOS LLMに対してSOTA(State-of-the-art)パフォーマンスを提供するプロンプトプラットフォームであるOpenMedLMを提案する。
論文 参考訳(メタデータ) (2024-02-29T17:19:39Z) - FOFO: A Benchmark to Evaluate LLMs' Format-Following Capability [70.84333325049123]
FoFoは、大規模言語モデル(LLM)の複雑なドメイン固有のフォーマットに従う能力を評価するための先駆的なベンチマークである。
本稿では,大規模言語モデル(LLM)の複雑なドメイン固有フォーマットに従う能力を評価するための先駆的ベンチマークであるFoFoを提案する。
論文 参考訳(メタデータ) (2024-02-28T19:23:27Z) - Large Language Model Distilling Medication Recommendation Model [58.94186280631342]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。
本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。
これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文 参考訳(メタデータ) (2024-02-05T08:25:22Z) - LLM-Rec: Personalized Recommendation via Prompting Large Language Models [62.481065357472964]
大きな言語モデル(LLM)は、常識的な知識と推論を活用する能力を示した。
大規模言語モデル(LLM)の最近の進歩は、コモンセンスの知識と推論を活用できることを顕著に示している。
本研究では,パーソナライズされたテキストベースのレコメンデーションを改善するために,テキストエンリッチメントの4つの異なる促進戦略を取り入れた新しいアプローチ LLM-Rec を提案する。
論文 参考訳(メタデータ) (2023-07-24T18:47:38Z) - A Survey on Large Language Models for Recommendation [77.91673633328148]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野で強力なツールとして登場した。
本調査では,これらのモデルを2つの主要なパラダイム(DLLM4Rec)とジェネレーティブLSM4Rec(GLLM4Rec)に分類する。
論文 参考訳(メタデータ) (2023-05-31T13:51:26Z) - An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [80.33783969507458]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。
近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。
これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文 参考訳(メタデータ) (2023-04-17T17:13:42Z) - Large Language Models Encode Clinical Knowledge [21.630872464930587]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。
本稿では, 現実性, 正確性, 潜在的害, バイアスを含む複数の軸に沿ったモデル回答の人為的評価のための枠組みを提案する。
本研究は,モデル尺度とインストラクション・インシデント・チューニングにより,理解,知識の想起,医学的推論が向上することを示す。
論文 参考訳(メタデータ) (2022-12-26T14:28:24Z) - Information Extraction in Low-Resource Scenarios: Survey and Perspective [56.5556523013924]
情報抽出は構造化されていないテキストから構造化された情報を導き出そうとする。
本稿では,emphLLMおよびemphLLMに基づく低リソースIEに対するニューラルアプローチについて概説する。
論文 参考訳(メタデータ) (2022-02-16T13:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。