論文の概要: Do Large Language Models have Shared Weaknesses in Medical Question Answering?
- arxiv url: http://arxiv.org/abs/2310.07225v3
- Date: Fri, 11 Oct 2024 14:55:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-14 13:28:52.214010
- Title: Do Large Language Models have Shared Weaknesses in Medical Question Answering?
- Title(参考訳): 医学的質問応答における大言語モデルは弱さを共有しているか?
- Authors: Andrew M. Bean, Karolina Korgul, Felix Krones, Robert McCraith, Adam Mahdi,
- Abstract要約: 大規模言語モデル(LLM)は、医療ベンチマークで急速に改善されているが、その信頼性の欠如は、安全な現実世界の使用において永続的な課題である。
上位のLLMをベンチマークし、モデル間の一貫性のあるパターンを特定します。
質問が正しく答えるモデル間の類似性の証拠と、人間のテストテイカーとの類似性を見出した。
- 参考スコア(独自算出の注目度): 1.25828876338076
- License:
- Abstract: Large language models (LLMs) have made rapid improvement on medical benchmarks, but their unreliability remains a persistent challenge for safe real-world uses. To design for the use LLMs as a category, rather than for specific models, requires developing an understanding of shared strengths and weaknesses which appear across models. To address this challenge, we benchmark a range of top LLMs and identify consistent patterns across models. We test $16$ well-known LLMs on $874$ newly collected questions from Polish medical licensing exams. For each question, we score each model on the top-1 accuracy and the distribution of probabilities assigned. We then compare these results with factors such as question difficulty for humans, question length, and the scores of the other models. LLM accuracies were positively correlated pairwise ($0.39$ to $0.58$). Model performance was also correlated with human performance ($0.09$ to $0.13$), but negatively correlated to the difference between the question-level accuracy of top-scoring and bottom-scoring humans ($-0.09$ to $-0.14$). The top output probability and question length were positive and negative predictors of accuracy respectively (p$< 0.05$). The top scoring LLM, GPT-4o Turbo, scored $84\%$, with Claude Opus, Gemini 1.5 Pro and Llama 3/3.1 between $74\%$ and $79\%$. We found evidence of similarities between models in which questions they answer correctly, as well as similarities with human test takers. Larger models typically performed better, but differences in training, architecture, and data were also highly impactful. Model accuracy was positively correlated with confidence, but negatively correlated with question length. We find similar results with older models, and argue that these patterns are likely to persist across future models using similar training methods.
- Abstract(参考訳): 大規模言語モデル(LLM)は、医療ベンチマークで急速に改善されているが、その信頼性の欠如は、安全な現実世界の使用において永続的な課題である。
LLMを特定のモデルではなくカテゴリとして使用するために設計するには、モデルにまたがる共通の強みと弱みを理解する必要がある。
この課題に対処するため、私たちはトップレベルのLSMをベンチマークし、モデル間の一貫性のあるパターンを特定します。
ポーランドの医療ライセンス試験から新たに収集した質問に対して、有名なLLMを16ドルでテストしました。
各質問に対して、各モデルをトップ1の精度と割り当てられた確率の分布に基づいてスコア付けする。
次に、これらの結果と、人間の質問難易度、質問長、他のモデルのスコアなどの要因を比較した。
LLMの精度は正の相関関係(0.39$から0.58$)であった。
また, モデル性能は人的性能(0.09ドルから0.13ドル)と相関したが, トップスコアとボトムスコアの質問レベル精度(0.09ドルから$-0.14ドル)の差に負の相関が認められた。
上位出力確率と質問長はそれぞれ正と負の精度の予測値(p$<0.05$)であった。
トップスコアのLPM、GPT-4o Turboは84 %$を獲得し、Claude Opus、Gemini 1.5 Pro、Llama 3/3.1を74 %$から79 %$で獲得した。
質問が正しく答えるモデル間の類似性の証拠と、人間のテストテイカーとの類似性を見出した。
より大型のモデルは通常より優れた性能を示したが、トレーニング、アーキテクチャ、データの違いも非常に影響を受けていた。
モデル精度は信頼度と正の相関を示したが,質問長と負の相関を示した。
古いモデルでも同様の結果が得られ、これらのパターンは、同様のトレーニング手法を使用して、将来のモデルにまたがって持続する可能性が高い、と論じる。
関連論文リスト
- Uncertainty Estimation of Large Language Models in Medical Question Answering [60.72223137560633]
大規模言語モデル(LLM)は、医療における自然言語生成の約束を示すが、事実的に誤った情報を幻覚させるリスクがある。
医学的問合せデータセットのモデルサイズが異なる人気不確実性推定(UE)手法をベンチマークする。
以上の結果から,本領域における現在のアプローチは,医療応用におけるUEの課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-07-11T16:51:33Z) - Replacing Judges with Juries: Evaluating LLM Generations with a Panel of Diverse Models [56.02275285521847]
LLm評価器のパネル(PoLL)を用いた評価モデルを提案する。
より多数の小さなモデルで構成されたPoLLは,1つの大判定器より優れ,不整合モデルファミリーの構成によるモデル内バイアスが小さく,しかも7倍以上のコストがかかる。
論文 参考訳(メタデータ) (2024-04-29T15:33:23Z) - Chain-of-Thought Unfaithfulness as Disguised Accuracy [0.0]
CoT(Chain-of-Thought)世代は、大きな言語モデルの内部計算(LLM)と一致している。
モデルが回答を生成するためのCoTへの依存度を測定する指標を提案する。
論文 参考訳(メタデータ) (2024-02-22T17:23:53Z) - Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z) - Better Diffusion Models Further Improve Adversarial Training [97.44991845907708]
拡散確率モデル (DDPM) によって生成されたデータは, 対人訓練を改善することが認識されている。
本稿では,効率のよい最新の拡散モデルを用いて,肯定的な回答を与える。
我々の逆向きに訓練されたモデルは、生成されたデータのみを使用してRobustBench上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-02-09T13:46:42Z) - Deconstructing Distributions: A Pointwise Framework of Learning [15.517383696434162]
テスト分布におけるモデルの平均性能と、この個々の点におけるポイントワイズ性能の関係について調べる。
プロファイルは、モデルとデータの構造 -- 分布の内外 -- に新しい洞察を与えることができる。
論文 参考訳(メタデータ) (2022-02-20T23:25:28Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z) - What's the best place for an AI conference, Vancouver or ______: Why
completing comparative questions is difficult [22.04829832439774]
ニューラルLMが妥当な質問をする(答えない)能力について研究する。
この課題の正確性は,質問が妥当かどうかの判断とよく関連している。
論文 参考訳(メタデータ) (2021-04-05T14:56:09Z) - How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文 参考訳(メタデータ) (2020-12-02T03:53:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。