論文の概要: AutoMedPrompt: A New Framework for Optimizing LLM Medical Prompts Using Textual Gradients
- arxiv url: http://arxiv.org/abs/2502.15944v1
- Date: Fri, 21 Feb 2025 21:17:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 22:36:55.893616
- Title: AutoMedPrompt: A New Framework for Optimizing LLM Medical Prompts Using Textual Gradients
- Title(参考訳): AutoMedPrompt: テキストグラディエントを用いたLLM医療プロンプトの最適化のための新しいフレームワーク
- Authors: Sean Wu, Michael Koo, Fabien Scalzo, Ira Kurtz,
- Abstract要約: 大規模言語モデル(LLM)は、医学やその他の知識分野において、ますます高度なパフォーマンスを示している。
近年の急進的な工学は微調整ではなく、一般的な基礎モデルの性能を高める可能性を示している。
本稿では,医学的関連推論のためのテキスト勾配の活用を探求するAutoMedPromptを提案する。
- 参考スコア(独自算出の注目度): 0.3636228980200798
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated increasingly sophisticated performance in medical and other fields of knowledge. Traditional methods of creating specialist LLMs require extensive fine-tuning and training of models on large datasets. Recently, prompt engineering, instead of fine-tuning, has shown potential to boost the performance of general foundation models. However, prompting methods such as chain-of-thought (CoT) may not be suitable for all subspecialty, and k-shot approaches may introduce irrelevant tokens into the context space. We present AutoMedPrompt, which explores the use of textual gradients to elicit medically relevant reasoning through system prompt optimization. AutoMedPrompt leverages TextGrad's automatic differentiation via text to improve the ability of general foundation LLMs. We evaluated AutoMedPrompt on Llama 3, an open-source LLM, using several QA benchmarks, including MedQA, PubMedQA, and the nephrology subspecialty-specific NephSAP. Our results show that prompting with textual gradients outperforms previous methods on open-source LLMs and surpasses proprietary models such as GPT-4, Claude 3 Opus, and Med-PaLM 2. AutoMedPrompt sets a new state-of-the-art (SOTA) performance on PubMedQA with an accuracy of 82.6$\%$, while also outperforming previous prompting strategies on open-sourced models for MedQA (77.7$\%$) and NephSAP (63.8$\%$).
- Abstract(参考訳): 大規模言語モデル(LLM)は、医学やその他の知識分野において、ますます高度なパフォーマンスを示している。
専門的なLLMを作成する従来の方法は、大規模なデータセット上でのモデルの広範囲な微調整とトレーニングを必要とする。
近年, ファインチューニングではなく, プロンプトエンジニアリングにより, 基礎モデルの性能が向上する可能性が示唆されている。
しかしながら、チェーン・オブ・シークレット(CoT)のようなプロンプト法はすべての亜種に適さないかもしれないし、kショットアプローチは文脈空間に無関係なトークンを導入するかもしれない。
本稿では,システムプロンプト最適化による医学的関連推論のためのテキストグラデーションの利用を探求するAutoMedPromptを提案する。
AutoMedPrompt は TextGrad のテキストによる自動微分を活用して,汎用 LLM の能力を向上させる。
MedQA,PubMedQA,nephrology subspecialty-specific NephSAPなど,いくつかのQAベンチマークを用いて,オープンソースのLLMであるLlama 3上でAutoMedPromptを評価した。
GPT-4, Claude 3 Opus, Med-PaLM 2 などのプロプライエタリなモデルよりも, 従来の LLM の手法よりもテキスト勾配の方が優れていた。
AutoMedPromptはPubMedQAに新しい最先端(SOTA)パフォーマンスを82.6$\%$で設定すると同時に、MedQA (77.7$\%$) とNephSAP (63.8$\%$) のオープンソースモデルにおける以前のプロンプト戦略よりも優れている。
関連論文リスト
- BRIDGE: Benchmarking Large Language Models for Understanding Real-world Clinical Practice Text [10.071956824618418]
大規模言語モデル(LLM)は医療応用に大きな期待を持ち、急速に進化している。
既存のベンチマークのほとんどは、医療試験スタイルの質問やPubMedから派生したテキストに依存している。
9言語にわたる実世界の臨床データソースから得られた87のタスクからなる総合的なベンチマークBRIDGEを提案する。
論文 参考訳(メタデータ) (2025-04-28T04:13:18Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Leveraging Large Language Models for Medical Information Extraction and Query Generation [2.1793134762413433]
本稿では,大言語モデル(LLM)を臨床試験検索プロセスに統合するシステムを提案する。
クエリ生成には6つのLCMを評価し,最小限の計算資源を必要とする,オープンソースと比較的小さなモデルに着目した。
論文 参考訳(メタデータ) (2024-10-31T12:01:51Z) - LlamaCare: A Large Medical Language Model for Enhancing Healthcare Knowledge Sharing [0.0]
24G GPUでChatGPTと同等の性能を示した。
PubMedQAやUSMLE 1-3など,いくつかのベンチマークを対象としたワンショットおよび数ショットトレーニングのための処理データをリリースしました。
論文 参考訳(メタデータ) (2024-06-04T14:24:53Z) - OpenMedLM: Prompt engineering can out-perform fine-tuning in medical
question-answering with open-source large language models [4.556924372105915]
オープンソース(OS)モデルは、医療用LDMにとって重要な成長領域である。
医用ベンチマークでOS LLMに対してSOTA(State-of-the-art)パフォーマンスを提供するプロンプトプラットフォームであるOpenMedLMを提案する。
論文 参考訳(メタデータ) (2024-02-29T17:19:39Z) - FOFO: A Benchmark to Evaluate LLMs' Format-Following Capability [70.84333325049123]
FoFoは、大規模言語モデル(LLM)の複雑なドメイン固有のフォーマットに従う能力を評価するための先駆的なベンチマークである。
本稿では,大規模言語モデル(LLM)の複雑なドメイン固有フォーマットに従う能力を評価するための先駆的ベンチマークであるFoFoを提案する。
論文 参考訳(メタデータ) (2024-02-28T19:23:27Z) - Large Language Model Distilling Medication Recommendation Model [58.94186280631342]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。
本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。
これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文 参考訳(メタデータ) (2024-02-05T08:25:22Z) - LLM-Rec: Personalized Recommendation via Prompting Large Language Models [62.481065357472964]
大きな言語モデル(LLM)は、常識的な知識と推論を活用する能力を示した。
大規模言語モデル(LLM)の最近の進歩は、コモンセンスの知識と推論を活用できることを顕著に示している。
本研究では,パーソナライズされたテキストベースのレコメンデーションを改善するために,テキストエンリッチメントの4つの異なる促進戦略を取り入れた新しいアプローチ LLM-Rec を提案する。
論文 参考訳(メタデータ) (2023-07-24T18:47:38Z) - An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [80.33783969507458]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。
近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。
これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文 参考訳(メタデータ) (2023-04-17T17:13:42Z) - Large Language Models Encode Clinical Knowledge [21.630872464930587]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。
本稿では, 現実性, 正確性, 潜在的害, バイアスを含む複数の軸に沿ったモデル回答の人為的評価のための枠組みを提案する。
本研究は,モデル尺度とインストラクション・インシデント・チューニングにより,理解,知識の想起,医学的推論が向上することを示す。
論文 参考訳(メタデータ) (2022-12-26T14:28:24Z) - Information Extraction in Low-Resource Scenarios: Survey and Perspective [56.5556523013924]
情報抽出は構造化されていないテキストから構造化された情報を導き出そうとする。
本稿では,emphLLMおよびemphLLMに基づく低リソースIEに対するニューラルアプローチについて概説する。
論文 参考訳(メタデータ) (2022-02-16T13:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。