Fugu-MT 論文翻訳(概要): Can large language models reason about medical questions?

論文の概要: Can large language models reason about medical questions?

arxiv url: http://arxiv.org/abs/2207.08143v1
Date: Sun, 17 Jul 2022 11:24:44 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-19 14:07:53.459045
Title: Can large language models reason about medical questions?
Title（参考訳）: 大きな言語モデルが医学的問題に当てはまるか?
Authors: Valentin Li\'evin, Christoffer Egeberg Hother, Ole Winther
Abstract要約: 大規模言語モデル(LLM)は、しばしば印象的な出力を生成するが、推論に失敗し、事実である。我々は、これらの制限がLLMの難解な実世界の質問に答え、推論する能力にどのように影響するかを調査した。 GPT-3を多票検診の回答に応用した。
参考スコア（独自算出の注目度）: 8.695121314255756
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Although large language models (LLMs) often produce impressive outputs, they also fail to reason and be factual. We set out to investigate how these limitations affect the LLM's ability to answer and reason about difficult real-world based questions. We applied the human-aligned GPT-3 (InstructGPT) to answer multiple-choice medical exam questions (USMLE and MedMCQA) and medical research questions (PubMedQA). We investigated Chain-of-thought (think step by step) prompts, grounding (augmenting the prompt with search results) and few-shot (prepending the question with question-answer exemplars). For a subset of the USMLE questions, a medical domain expert reviewed and annotated the model's reasoning. Overall, GPT-3 achieved a substantial improvement in state-of-the-art machine learning performance. We observed that GPT-3 is often knowledgeable and can reason about medical questions. GPT-3, when confronted with a question it cannot answer, will still attempt to answer, often resulting in a biased predictive distribution. LLMs are not on par with human performance but our results suggest the emergence of reasoning patterns that are compatible with medical problem-solving. We speculate that scaling model and data, enhancing prompt alignment and allowing for better contextualization of the completions will be sufficient for LLMs to reach human-level performance on this type of task.
Abstract（参考訳）: 大きな言語モデル(LLM)は、しばしば印象的なアウトプットを生成するが、推論に失敗し、事実である。我々は、これらの制限がLLMの難解な実世界の質問に対する答えと推論能力にどのように影響するかを調査した。 GPT-3 (InstructGPT) を用いて, 多票検診質問 (USMLE, MedMCQA) および医学研究質問 (PubMedQA) に回答した。本研究は, 思考の連鎖(ステップ・バイ・ステップ)のプロンプト, グラウンド(検索結果によるプロンプトの増大), 少数ショット(質問応答の先取り)について検討した。 USMLEの質問のサブセットについて、医療分野の専門家がモデルの推論をレビューし、注釈を付けた。全体として、GPT-3は最先端の機械学習性能を大幅に改善した。 GPT-3はよく知識があり,医学的疑問を推論できる。 GPT-3は、答えられない質問に直面すると、まだ答えようと試み、しばしばバイアスのある予測分布をもたらす。 LLMはヒトと同等ではないが,医学的問題解決に適合する推論パターンの出現を示唆している。モデルとデータのスケーリング、迅速なアライメントの強化、完了の文脈化の促進は、LLMがこの種のタスクにおいて人間レベルのパフォーマンスに達するのに十分である、と推測する。

関連論文リスト

ReasonMed: A 370K Multi-Agent Generated Dataset for Advancing Medical Reasoning [44.96018028534255]
ReasonMedは最大の医学推論データセットであり、最初の170万の推論パスから370万の高品質なサンプルを抽出した。我々は、サブ10Bモデルのベンチマークを新たに設定したReasonMed-7Bを4.17%上回り、PubMedQAのLLaMA3.1-70Bを4.60%上回っている。
論文参考訳（メタデータ） (2025-06-11T08:36:55Z)
On the Performance of an Explainable Language Model on PubMedQA [1.1484381570538684]
本稿では,代替アーキテクチャに基づく説明可能な言語モデルであるGyanの結果を,PubmedQAデータセット上で報告する。 Gyanは信頼でき、透明で、幻覚がなく、重要なトレーニングや計算資源を必要としない。
論文参考訳（メタデータ） (2025-04-07T13:42:02Z)
Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
AutoMedPrompt: A New Framework for Optimizing LLM Medical Prompts Using Textual Gradients [0.3636228980200798]
大規模言語モデル(LLM)は、医学やその他の知識分野において、ますます高度なパフォーマンスを示している。近年の急進的な工学は微調整ではなく、一般的な基礎モデルの性能を高める可能性を示している。本稿では,医学的関連推論のためのテキスト勾配の活用を探求するAutoMedPromptを提案する。
論文参考訳（メタデータ） (2025-02-21T21:17:37Z)
A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor? [33.70022886795487]
OpenAIのo1は、強化学習戦略を使ったチェーン・オブ・ソート技術を使った最初のモデルとして際立っている。本報告では、様々な医療シナリオにおけるo1の総合的な探索を行い、理解、推論、多言語性という3つの重要な側面について検討する。
論文参考訳（メタデータ） (2024-09-23T17:59:43Z)
Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。 MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。 MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文参考訳（メタデータ） (2024-08-22T17:01:34Z)
Uncertainty Estimation of Large Language Models in Medical Question Answering [60.72223137560633]
大規模言語モデル(LLM)は、医療における自然言語生成の約束を示すが、事実的に誤った情報を幻覚させるリスクがある。医学的問合せデータセットのモデルサイズが異なる人気不確実性推定(UE)手法をベンチマークする。以上の結果から,本領域における現在のアプローチは,医療応用におけるUEの課題を浮き彫りにしている。
論文参考訳（メタデータ） (2024-07-11T16:51:33Z)
RULE: Reliable Multimodal RAG for Factuality in Medical Vision Language Models [35.60385437194243]
現在の医療用大規模視覚言語モデル(Med-LVLM)は、しばしば現実の問題に遭遇する。外部知識を利用するRAGは、これらのモデルの現実的精度を向上させることができるが、2つの大きな課題を提起する。本稿では,2つのコンポーネントからなるRULEを提案する。まず,検索したコンテキストの選択を通じて事実性リスクを制御するための有効な戦略を提案する。次に、検索したコンテキストへの過度な依存がエラーを引き起こしたサンプルに基づいて、選好データセットをキュレートしてモデルを微調整する。
論文参考訳（メタデータ） (2024-07-06T16:45:07Z)
MedConceptsQA: Open Source Medical Concepts QA Benchmark [0.07083082555458872]
MedConceptsQAは、医療概念質問応答のための専用のオープンソースベンチマークである。このベンチマークは、診断、手順、薬物など、さまざまな語彙の様々な医学概念に関する質問で構成されている。各種大規模言語モデルを用いて評価を行った。
論文参考訳（メタデータ） (2024-05-12T17:54:50Z)
Small Language Models Learn Enhanced Reasoning Skills from Medical Textbooks [17.40940406100025]
私たちは、70億から700億のパラメータからなる、医療AIシステムの新しいファミリーであるMeerkatを紹介します。我々のシステムは6つの医療ベンチマークで顕著な精度を達成した。 Meerkat-70Bは38例中21例を正しく診断し、ヒトの13.8例を上回った。
論文参考訳（メタデータ） (2024-03-30T14:09:00Z)
BioMedLM: A 2.7B Parameter Language Model Trained On Biomedical Text [82.7001841679981]
BioMedLM は270億のパラメータ GPT スタイルの自己回帰モデルであり、PubMed の抽象概念と全記事に特化して訓練されている。微調整すると、BioMedLMはより大規模なモデルと競合する強力な多重選択のバイオメディカルな質問応答結果を生成することができる。 BioMedLMは、医療トピックに関する患者の質問に対する有用な回答を生成するために、微調整することもできる。
論文参考訳（メタデータ） (2024-03-27T10:18:21Z)
Uncertainty of Thoughts: Uncertainty-Aware Planning Enhances Information Seeking in Large Language Models [73.79091519226026]
Uncertainty of Thoughts (UoT) は、大きな言語モデルを拡張するアルゴリズムであり、効果的な質問をすることで積極的に情報を求めることができる。医療診断、トラブルシューティング、および20の質問ゲームに関する実験において、UoTは、タスク完了の成功率において平均38.1%のパフォーマンス向上を達成した。
論文参考訳（メタデータ） (2024-02-05T18:28:44Z)
MEDITRON-70B: Scaling Medical Pretraining for Large Language Models [91.25119823784705]
大きな言語モデル(LLM)は、医療知識へのアクセスを民主化することができる。医療領域に適応した7Bおよび70BパラメータのオープンソースLLMスイートであるMEDITRONをリリースする。
論文参考訳（メタデータ） (2023-11-27T18:49:43Z)
Qilin-Med: Multi-stage Knowledge Injection Advanced Medical Large Language Model [41.11769935795965]
本稿では,ドメイン固有型連続事前学習(DCPT),スーパーバイザードファインチューニング(SFT),直接選好最適化(DPO)を組み合わせた多段階学習手法を提案する。 CPTとSFTの段階では、Qilin-MedはCMExamテストセットでそれぞれ38.4%と40.0%の精度を達成した。 DPOフェーズでは、BLEU-1で16.66点、Huatuo-26MテストセットでROUGE-1で27.44点を記録し、SFTフェーズ(BLEU-1で12.69点、ROUGE-1で24.21点)をさらに改善した。
論文参考訳（メタデータ） (2023-10-13T13:17:03Z)
PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。 LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。 PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文参考訳（メタデータ） (2023-04-27T18:29:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。