論文の概要: From Medprompt to o1: Exploration of Run-Time Strategies for Medical Challenge Problems and Beyond
- arxiv url: http://arxiv.org/abs/2411.03590v1
- Date: Wed, 06 Nov 2024 01:09:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:23:50.117039
- Title: From Medprompt to o1: Exploration of Run-Time Strategies for Medical Challenge Problems and Beyond
- Title(参考訳): メドプロンプトからo1へ:医学的課題に対する実行時戦略の探求と今後の展開
- Authors: Harsha Nori, Naoto Usuyama, Nicholas King, Scott Mayer McKinney, Xavier Fernandes, Sheng Zhang, Eric Horvitz,
- Abstract要約: Medpromptのような実行時のステアリング戦略は、大きな言語モデルを挑戦的なタスクで最高のパフォーマンスに導くのに役立ちます。
OpenAIのo1-previewモデルは、最終応答を生成する前に実行時の推論を行うように設計された新しいパラダイムを表している。
Medpromptに代表される古典的なプロンプトエンジニアリング戦略の有効性を、推論モデルの新しいパラダイムの中で検討する。
- 参考スコア(独自算出の注目度): 23.838194250964214
- License:
- Abstract: Run-time steering strategies like Medprompt are valuable for guiding large language models (LLMs) to top performance on challenging tasks. Medprompt demonstrates that a general LLM can be focused to deliver state-of-the-art performance on specialized domains like medicine by using a prompt to elicit a run-time strategy involving chain of thought reasoning and ensembling. OpenAI's o1-preview model represents a new paradigm, where a model is designed to do run-time reasoning before generating final responses. We seek to understand the behavior of o1-preview on a diverse set of medical challenge problem benchmarks. Following on the Medprompt study with GPT-4, we systematically evaluate the o1-preview model across various medical benchmarks. Notably, even without prompting techniques, o1-preview largely outperforms the GPT-4 series with Medprompt. We further systematically study the efficacy of classic prompt engineering strategies, as represented by Medprompt, within the new paradigm of reasoning models. We found that few-shot prompting hinders o1's performance, suggesting that in-context learning may no longer be an effective steering approach for reasoning-native models. While ensembling remains viable, it is resource-intensive and requires careful cost-performance optimization. Our cost and accuracy analysis across run-time strategies reveals a Pareto frontier, with GPT-4o representing a more affordable option and o1-preview achieving state-of-the-art performance at higher cost. Although o1-preview offers top performance, GPT-4o with steering strategies like Medprompt retains value in specific contexts. Moreover, we note that the o1-preview model has reached near-saturation on many existing medical benchmarks, underscoring the need for new, challenging benchmarks. We close with reflections on general directions for inference-time computation with LLMs.
- Abstract(参考訳): Medpromptのような実行時のステアリング戦略は、大きな言語モデル(LLM)を困難なタスクで最高のパフォーマンスに導くのに有用である。
Medprompt氏は、一般的なLLMが、思考推論とアンサンブルの連鎖を含む実行時の戦略を引き出すプロンプトを使用することで、医学のような専門分野に最先端のパフォーマンスを提供することに集中できることを実証している。
OpenAIのo1-previewモデルは、最終応答を生成する前に実行時の推論を行うように設計された新しいパラダイムを表している。
我々は、様々な医療課題問題ベンチマークにおいて、o1-previewの振る舞いを理解することを目指している。
GPT-4を用いたMedprompt研究に続き、様々な医療ベンチマークでo1-previewモデルを体系的に評価した。
特に、プロンプト技術がなくても、o1-preview は GPT-4 シリーズをMedprompt で大きく上回っている。
我々はさらに、Medpromptで表現された古典的なプロンプトエンジニアリング戦略の有効性を、推論モデルの新しいパラダイムの中で体系的に研究する。
数発のプロンプトによってo1のパフォーマンスが損なわれ、コンテキスト内学習が推論ネイティブモデルに対する効果的なステアリングアプローチになる可能性が示唆された。
アンサンブルは引き続き有効であるが、リソース集約であり、注意深くコストパフォーマンスを最適化する必要がある。
GPT-4oはより手頃な価格の選択肢であり,o1-previewは最先端の性能を高いコストで達成する。
o1-previewは最高のパフォーマンスを提供するが、Medpromptのようなステアリング戦略を備えたGPT-4oは、特定のコンテキストにおける価値を維持している。
さらに、既存の多くのベンチマークでは、o1-previewモデルがほぼ飽和状態に達しており、新しい、挑戦的なベンチマークの必要性が強調されている。
LLMを用いた推論時間計算の一般的な方向の反射と近接する。
関連論文リスト
- SemiHVision: Enhancing Medical Multimodal Models with a Semi-Human Annotated Dataset and Fine-Tuned Instruction Generation [13.672776832197918]
MLLM(Multimodal large language model)は大きな進歩を遂げているが、専門知識が限られているため、医療分野の課題に直面している。
データ収集やモデル微調整,評価など,エンドツーエンドの学習パイプラインのさまざまな段階において,このギャップに対処することを目指している。
論文 参考訳(メタデータ) (2024-10-19T02:35:35Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Can GPT Redefine Medical Understanding? Evaluating GPT on Biomedical Machine Reading Comprehension [2.3231783764387566]
大規模言語モデル(LLM)は、異なる領域における多くのタスクにおいて顕著なパフォーマンスを示している。
本研究では,4つの閉書バイオメディカル機械読解ベンチマークを用いてGPTの評価を行った。
本稿では,ベクトルデータベースの利用を緩和するImplicit Retrieval Augmented Generation (RAG) というプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2024-05-29T01:12:53Z) - On the test-time zero-shot generalization of vision-language models: Do we really need prompt learning? [13.803180972839213]
テスト時間拡張(MTA)のための堅牢な平均シフトを導入する。
MTAは、この集中的なトレーニング手順を必要とせずに、プロンプトベースの手法を超える。
提案手法を15のデータセット上で広範囲にベンチマークし,MTAの優位性と計算効率を実証する。
論文 参考訳(メタデータ) (2024-05-03T17:34:02Z) - Capabilities of Gemini Models in Medicine [100.60391771032887]
医療専門のマルチモーダルモデルであるMed-Geminiを紹介する。
メドジェニーニを14の医療ベンチマークで評価し,その内10に新たな最先端(SoTA)性能を確立した。
我々の結果は、Med-Geminiの可能性を示唆する証拠を提供するが、より厳密な評価は実世界の展開に先立って重要である。
論文 参考訳(メタデータ) (2024-04-29T04:11:28Z) - Large Language Model Distilling Medication Recommendation Model [61.89754499292561]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。
本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。
これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文 参考訳(メタデータ) (2024-02-05T08:25:22Z) - Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case
Study in Medicine [89.46836590149883]
本研究は, GPT-4の医学的課題評価における能力について, 専門訓練の欠如による先行研究に基づくものである。
イノベーションを促進することで、より深い専門能力が解放され、GPT-4が医学ベンチマークの先行結果に容易に勝っていることが分かる。
Medpromptを使用すると、GPT-4はMultiMedQAスイートのベンチマークデータセットの9つすべてに対して最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-28T03:16:12Z) - MMG-Ego4D: Multi-Modal Generalization in Egocentric Action Recognition [73.80088682784587]
MMG(Multimodal Generalization)は,特定のモダリティのデータに制限がある場合,あるいは完全に欠落する場合に,システムがどのように一般化できるかを研究することを目的としている。
MMGは2つの新しいシナリオで構成され、現実のアプリケーションにおけるセキュリティと効率の考慮をサポートするように設計されている。
新しい融合モジュールは、モダリティのドロップアウトトレーニング、コントラストベースのアライメントトレーニング、そして新しいクロスモーダル損失により、より優れた数ショット性能を実現した。
論文 参考訳(メタデータ) (2023-05-12T03:05:40Z) - Unified Vision and Language Prompt Learning [86.1530128487077]
本稿では,テキストプロンプトチューニングと視覚的プロンプトチューニングという,2つの代表的プロンプトチューニング手法に関する体系的研究を行う。
主要な発見は、テキストプロンプトチューニングは、高いクラス内の視覚的ばらつきを持つデータでは失敗する一方で、視覚的プロンプトチューニングはクラス間のばらつきを低く扱えないことである。
両世界から最高のものを組み合わせるために、我々はUnified Prompt Tuning (UPT)と呼ばれる単純なアプローチを提案する。
論文 参考訳(メタデータ) (2022-10-13T17:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。