論文の概要: A recent evaluation on the performance of LLMs on radiation oncology physics using questions of randomly shuffled options
- arxiv url: http://arxiv.org/abs/2412.10622v3
- Date: Tue, 21 Jan 2025 17:20:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:15:35.277526
- Title: A recent evaluation on the performance of LLMs on radiation oncology physics using questions of randomly shuffled options
- Title(参考訳): ランダムシャッフルオプション問題を用いた放射線オンコロジー物理におけるLCMの性能評価
- Authors: Peilong Wang, Jason Holmes, Zhengliang Liu, Dequan Chen, Tianming Liu, Jiajian Shen, Wei Liu,
- Abstract要約: 放射線オンコロジー物理における5つの大言語モデル(LLM)の性能評価を行った。
LLMの性能は、医学物理学者の回答と比較された。
- 参考スコア(独自算出の注目度): 17.824682629332234
- License:
- Abstract: Purpose: We present an updated study evaluating the performance of large language models (LLMs) in answering radiation oncology physics questions, focusing on the recently released models. Methods: A set of 100 multiple-choice radiation oncology physics questions, previously created by a well-experienced physicist, was used for this study. The answer options of the questions were randomly shuffled to create "new" exam sets. Five LLMs -- OpenAI o1-preview, GPT-4o, LLaMA 3.1 (405B), Gemini 1.5 Pro, and Claude 3.5 Sonnet -- with the versions released before September 30, 2024, were queried using these new exam sets. To evaluate their deductive reasoning ability, the correct answer options in the questions were replaced with "None of the above." Then, the explain-first and step-by-step instruction prompts were used to test if this strategy improved their reasoning ability. The performance of the LLMs was compared with the answers from medical physicists. Results: All models demonstrated expert-level performance on these questions, with o1-preview even surpassing medical physicists with a majority vote. When replacing the correct answer options with 'None of the above', all models exhibited a considerable decline in performance, suggesting room for improvement. The explain-first and step-by-step instruction prompts helped enhance the reasoning ability of the LLaMA 3.1 (405B), Gemini 1.5 Pro, and Claude 3.5 Sonnet models. Conclusion: These recently released LLMs demonstrated expert-level performance in answering radiation oncology physics questions, exhibiting great potential to assist in radiation oncology physics education and training.
- Abstract(参考訳): 目的: 大規模言語モデル(LLM)の性能を評価するため, 放射線オンコロジーの物理問題に対する回答として, 最近発表されたモデルに着目した最新の研究を提案する。
方法: 経験豊富な物理学者によって以前に作成された100の多重選択放射線オンコロジー物理学の質問が本研究に用いられた。
質問の答えオプションはランダムにシャッフルされ、「新しい」試験セットが作成されました。
オープンAI o1-preview, GPT-4o, LLaMA 3.1 (405B), Gemini 1.5 Pro, Claude 3.5 Sonnetの5つのLCMが2024年9月30日にリリースされた。
帰納的推論能力を評価するため,質問の正解オプションを「上述しない」に置き換えた。
そして、この戦略が推論能力を向上させたかどうかをテストするために、説明ファーストとステップバイステップの指示プロンプトを使用した。
LLMの性能は、医学物理学者の回答と比較された。
結果: 全てのモデルがこれらの質問に対して専門家レベルのパフォーマンスを示し, o1-preview は多数決で医学物理学者を抜いた。
正しい解答オプションを「上記のものなし」に置き換えると、全てのモデルの性能は大幅に低下し、改善の余地が示唆された。
LLaMA 3.1 (405B)、ジェミニ1.5 Pro、クロード3.5ソンネットの推論能力の向上に寄与した。
結論:最近発表されたLSMは放射線オンコロジー物理学の質問に答える専門家レベルの性能を示し,放射線オンコロジー物理学の教育とトレーニングを支援する大きな可能性を示した。
関連論文リスト
- Testing Uncertainty of Large Language Models for Physics Knowledge and Reasoning [0.0]
大規模言語モデル(LLM)は、近年、様々な分野の質問に答える能力で大きな人気を集めている。
本稿では,オープンソースLLMの性能評価のための解析手法を提案する。
我々は,物理に関する話題における解答精度と変数の関係に注目した。
論文 参考訳(メタデータ) (2024-11-18T13:42:13Z) - MaterialBENCH: Evaluating College-Level Materials Science Problem-Solving Abilities of Large Language Models [7.559885439354167]
材料科学分野における大規模言語モデル(LLM)のための大学レベルのベンチマークデータセットであるMaterialBENCHを構築した。
このデータセットは、大学教科書に基づく問題解決ペアで構成されている。
論文 参考訳(メタデータ) (2024-09-05T01:36:00Z) - Benchmarking Hallucination in Large Language Models based on
Unanswerable Math Word Problem [58.3723958800254]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて非常に効果的である。
それらは幻覚と呼ばれる曖昧な文脈で信頼できない予想を生じさせる可能性がある。
本稿では,不問答語問題(MWP)に基づく質問回答(QA)におけるLLM幻覚評価手法を提案する。
論文 参考訳(メタデータ) (2024-03-06T09:06:34Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z) - Are You Sure? Challenging LLMs Leads to Performance Drops in The
FlipFlop Experiment [82.60594940370919]
大規模言語モデル(LLM)のマルチターン動作を研究するためのFlipFlop実験を提案する。
モデルが平均46%の時間で回答を反転させ、全てのモデルが最初の予測と最終予測の間に精度を低下させ、平均17%の低下(FlipFlop効果)を示す。
我々はオープンソースのLLMで微調整実験を行い、合成されたデータに対する微調整は、性能劣化を60%低減させることができるが、サイコファンティックな振る舞いを完全には解決できないことを発見した。
論文 参考訳(メタデータ) (2023-11-14T23:40:22Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - Evaluating Large Language Models on a Highly-specialized Topic,
Radiation Oncology Physics [9.167699167689369]
本稿では,放射線オンコロジー物理の分野におけるLSMの評価について述べる。
我々は放射線オンコロジー物理100問からなる試験を開発した。
ChatGPT (GPT-3.5), ChatGPT (GPT-4), Bard (LaMDA), BLOOMZは, 医師や非専門家に対して評価された。
論文 参考訳(メタデータ) (2023-04-01T06:04:58Z) - Learn to Explain: Multimodal Reasoning via Thought Chains for Science
Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。
また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。
我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文 参考訳(メタデータ) (2022-09-20T07:04:24Z) - PROST: Physical Reasoning of Objects through Space and Time [68.69796589964076]
このデータセットには、14のテンプレートを手作業でキュレートした18,736の多重選択質問が含まれている。
我々は、最先端の事前学習モデルが物理的推論において不十分であることを示す分析を行う。
論文 参考訳(メタデータ) (2021-06-07T14:06:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。