論文の概要: Exploring the landscape of large language models in medical question
answering
- arxiv url: http://arxiv.org/abs/2310.07225v2
- Date: Sat, 9 Mar 2024 23:26:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 15:48:29.362679
- Title: Exploring the landscape of large language models in medical question
answering
- Title(参考訳): 医療質問応答における大規模言語モデルの展望を探る
- Authors: Andrew M. Bean, Karolina Korgul, Felix Krones, Robert McCraith, Adam
Mahdi
- Abstract要約: ポーランドの医療ライセンス試験において、有名な大言語モデル(LLM)を8ドルで試験する。
各質問に対して、各モデルを割り当てられたトップ1の精度と分布確率でスコア付けする。
次に、人間の問題難易度、質問の長さ、他のモデルのスコアなどと比較する。
- 参考スコア(独自算出の注目度): 1.3499500088995462
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid development of new large language models (LLMs), each claiming
to surpass previous models, an overall picture of medical LLM research can be
elusive. To address this challenge, we benchmark a range of top LLMs and
identify consistent patterns which appear across models. We test $8$ well-known
LLMs on $874$ newly collected questions from Polish medical licensing exams.
For each question, we score each model on the top-1 accuracy and the
distribution of probabilities assigned. We then compare with factors including
question difficulty for humans, question length, and the scores of the other
models. LLM accuracies were positively correlated pairwise ($0.29$ to $0.62$).
Model performance was also correlated with human performance ($0.07$ to
$0.16$), but negatively correlated to the difference between the question-level
accuracy of top-scoring and bottom-scoring humans ($-0.16$ to $-0.23$). The top
output probability and question length were positive and negative predictors of
accuracy respectively (p $< 0.05$). The top scoring LLM, GPT-4 Turbo, scored
$82\%$, followed by Med42, PaLM 2, Mixtral and GPT-3.5 around $63\%$. We found
evidence of similarities between models in which questions they answer
correctly, as well as similarities with human test takers. Larger models
typically performed better, but differences in training methods were also
highly impactful. Model accuracy was positively correlated with confidence, but
negatively correlated with question length. We expect that similar training
methods will lead these patterns to persist across future models. These
patterns can therefore aid medical experts in forming expectations about LLMs
as a category to support application research.
- Abstract(参考訳): 新しい大規模言語モデル(LLM)が急速に発展し、それぞれが以前のモデルを上回ると主張することから、医学LLM研究の全体像が解明される可能性がある。
この課題に対処するため、私たちはトップレベルのLSMをベンチマークし、モデルにまたがる一貫性のあるパターンを特定します。
ポーランドの医療ライセンス試験から新たに収集した874ドルの質問に対して、有名なLCMを8ドルでテストしました。
各質問に対して,各モデルをtop-1の精度と割り当てられた確率分布でスコア付けする。
次に、人間に対する質問難易度、質問の長さ、他のモデルのスコアなどについて比較する。
LLMの精度は正の相関関係(0.29$から0.62$)であった。
また, モデル性能は人的性能(0.07ドルから0.16ドル)と相関したが, トップスコアとボトムスコアの質問レベル精度(-0.16ドルから-0.23ドル)の違いに負の相関が認められた。
上位出力確率と質問長はそれぞれ正と負の精度の予測値であった(p $<0.05$)。
トップスコアのLPM, GPT-4 Turbo は 82 %$ で、次いで Med42, PaLM 2, Mixtral, GPT-3.5 は 63 %$ だった。
質問が正しく答えるモデル間の類似性の証拠と、人間のテストテイカーとの類似性を見出した。
より大型のモデルは通常より優れた性能を示したが、訓練方法の違いも非常に影響を受けていた。
モデル精度は信頼度と正の相関を示したが,質問長と負の相関を示した。
同様のトレーニング手法が、これらのパターンを将来のモデルにわたって持続させることを期待しています。
これらのパターンは、医学専門家がアプリケーション研究を支援するカテゴリとしてLSMに対する期待を形成するのに役立つ。
関連論文リスト
- Harmonic LLMs are Trustworthy [3.8119386967826294]
局所的な調和性からの偏差に基づいて,ブラックボックスLCMのロバスト性をリアルタイムに検証する直感的な手法を提案する。
論文 参考訳(メタデータ) (2024-04-30T17:00:32Z) - Do Large Language Models Understand Conversational Implicature -- A case study with a chinese sitcom [4.142301960178498]
SwordsmanImpは、会話の不適応を目的とした中国初のマルチターン対話ベースのデータセットである。
200の注意深い手作りの質問が含まれており、すべての注釈がグリサンの最大値が違反している。
以上の結果から, GPT-4は, 複数質問に対する人間レベルの精度(94%)を達成できることがわかった。
GPT-3.5やいくつかのオープンソースモデルを含む他のモデルは、複数の質問に対して20%から60%の低い精度を示している。
論文 参考訳(メタデータ) (2024-04-30T12:43:53Z) - Are You Sure? Challenging LLMs Leads to Performance Drops in The
FlipFlop Experiment [82.60594940370919]
大規模言語モデル(LLM)のマルチターン動作を研究するためのFlipFlop実験を提案する。
モデルが平均46%の時間で回答を反転させ、全てのモデルが最初の予測と最終予測の間に精度を低下させ、平均17%の低下(FlipFlop効果)を示す。
我々はオープンソースのLLMで微調整実験を行い、合成されたデータに対する微調整は、性能劣化を60%低減させることができるが、サイコファンティックな振る舞いを完全には解決できないことを発見した。
論文 参考訳(メタデータ) (2023-11-14T23:40:22Z) - Large GPT-like Models are Bad Babies: A Closer Look at the Relationship
between Linguistic Competence and Psycholinguistic Measures [25.210837736795565]
我々は、BabyLM事前学習コーパスの厳密なバージョンに基づいて、異なるサイズのGPTライクな言語モデルを訓練する。
これら3つの課題に対して,各課題におけるモデルの幅と深さの相違により,LMサイズと性能の正の相関が認められた。
このことは、モデリング処理の努力と言語能力は、発達可能なコーパス上でのGPTライクなLMのトレーニングとは異なるアプローチを必要とすることを示唆している。
論文 参考訳(メタデータ) (2023-11-08T09:26:27Z) - PRD: Peer Rank and Discussion Improve Large Language Model based
Evaluations [8.49315902032444]
大規模言語モデル(LLM)は自動評価や比較が難しい。
本稿では,全ての解答対に対するLLMのペアワイズ選好を考慮に入れたピアランク(PR)アルゴリズムを提案する。
我々のアプローチは高い精度を実現し、人間の判断とよく一致していることがわかりました。
論文 参考訳(メタデータ) (2023-07-06T04:05:44Z) - Efficiently Measuring the Cognitive Ability of LLMs: An Adaptive Testing
Perspective [63.92197404447808]
大きな言語モデル(LLM)は、人間のような認知能力を示している。
LLM評価のための適応テストフレームワークを提案する。
このアプローチは、モデルの性能に基づいて、難易度などのテスト問題の特徴を動的に調整する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z) - You can't pick your neighbors, or can you? When and how to rely on
retrieval in the $k$NN-LM [65.74934004876914]
Retrieval-enhanced Language Model (LM) は、大規模な外部データストアから取得したテキストにそれらの予測を条件付ける。
そのようなアプローチの1つ、$k$NN-LMは、既存のLMの予測を$k$-nearest近くのモデルの出力と補間する。
本研究では,2つの英語モデルデータセットに対するアプローチの有効性を実証的に測定する。
論文 参考訳(メタデータ) (2022-10-28T02:57:40Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z) - How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文 参考訳(メタデータ) (2020-12-02T03:53:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。