論文の概要: A recent evaluation on the performance of LLMs on radiation oncology physics using questions of randomly shuffled options
- arxiv url: http://arxiv.org/abs/2412.10622v2
- Date: Fri, 03 Jan 2025 02:12:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-06 15:09:21.879901
- Title: A recent evaluation on the performance of LLMs on radiation oncology physics using questions of randomly shuffled options
- Title(参考訳): ランダムシャッフルオプション問題を用いた放射線オンコロジー物理におけるLCMの性能評価
- Authors: Peilong Wang, Jason Holmes, Zhengliang Liu, Dequan Chen, Tianming Liu, Jiajian Shen, Wei Liu,
- Abstract要約: 2024年9月30日までにリリースされた5つの大きな言語モデル(LLM)は、新しい試験セットを使用して精査された。
帰納的推論能力を評価するために,質問の正解を「上述しない」に置き換えた。
LLMの性能は、医学物理学者の回答と比較された。
- 参考スコア(独自算出の注目度): 17.824682629332234
- License:
- Abstract: Purpose: We present an updated study evaluating the performance of large language models (LLMs) in answering radiation oncology physics questions, focusing on the recently released models. Methods: A set of 100 multiple choice radiation oncology physics questions, previously created by a well-experienced physicist, was used for this study. The answer options of the questions were randomly shuffled to create "new" exam sets. Five LLMs (OpenAI o1-preview, GPT-4o, LLaMA 3.1 (405B), Gemini 1.5 Pro, and Claude 3.5 Sonnet) with the versions released before September 30, 2024, were queried using these new exam sets. To evaluate their deductive reasoning capabilities, the correct answers in the questions were replaced with "None of the above." Then, the explaining-first and step-by-step instruction prompts were used to test if this strategy improved their reasoning capabilities. The performance of the LLMs was compared with the answers from medical physicists. Results: All models demonstrated expert-level performance on these questions, with o1-preview even surpassing medical physicists with a majority vote. When replacing the correct answers with "None of the above," all models exhibited a considerable decline in performance, suggesting room for improvement. The explaining-first and step-by-step instruction prompts helped enhance the reasoning capabilities of the LLaMA 3.1 (405B), Gemini 1.5 Pro, and Claude 3.5 Sonnet models. Conclusion: These recently released LLMs demonstrated expert-level performance in answering radiation oncology physics questions, exhibiting great potential to assist in radiation oncology physics training and education.
- Abstract(参考訳): 目的: 大規模言語モデル(LLM)の性能を評価するため, 放射線オンコロジーの物理問題に対する回答として, 最近発表されたモデルに着目した最新の研究を提案する。
方法: 経験豊富な物理学者によって以前に作成された100の多重選択放射線オンコロジー物理学の質問が本研究に用いられた。
質問の答えオプションはランダムにシャッフルされ、「新しい」試験セットが作成されました。
2024年9月30日より前にリリースされた5つのLCM(OpenAI o1-preview, GPT-4o, LLaMA 3.1 (405B), Gemini 1.5 Pro, Claude 3.5 Sonnet)は、これらの新しい試験セットを使用して精査された。
帰納的推論能力を評価するため,質問の正解を「上記のもの」に置き換えた。
そして、説明ファーストとステップバイステップの指示プロンプトを用いて、この戦略が推論能力を改善したかどうかを検証した。
LLMの性能は、医学物理学者の回答と比較された。
結果: 全てのモデルがこれらの質問に対して専門家レベルのパフォーマンスを示し, o1-preview は多数決で医学物理学者を抜いた。
正しい答えを“上記の誰もいない”に置き換えると、すべてのモデルのパフォーマンスが大幅に低下し、改善の余地が示唆された。
LLaMA 3.1 (405B)、ジェミニ1.5 Pro、クロード3.5ソンネットの推論能力の向上に寄与した。
結論:最近発表されたLSMは放射線オンコロジー物理学の質問に答える専門家レベルの性能を示し,放射線オンコロジー物理学のトレーニングと教育を支援する大きな可能性を示した。
関連論文リスト
- UGPhysics: A Comprehensive Benchmark for Undergraduate Physics Reasoning with Large Language Models [39.917074900737575]
大規模言語モデル(LLM)は、複雑な推論タスクを解く際、顕著な能力を示した。
物理学の推論の領域は、非常に少ない注意を払われたユニークな課題を提示する。
既存のベンチマークは、学部レベルの物理学の広さと深さでLLMの能力を評価するのに不足することが多い。
論文 参考訳(メタデータ) (2025-02-01T06:42:02Z) - Humanity's Last Exam [253.45228996132735]
HumanityのLast Exam(HLE)は、人間の知識の最前線におけるマルチモーダルベンチマークである。
数学、人文科学、自然科学など、数十の科目にわたる3000の質問で構成されている。
各質問には、曖昧で容易に検証できる既知のソリューションがあるが、インターネット検索ではすぐには答えられない。
論文 参考訳(メタデータ) (2025-01-24T05:27:46Z) - SciFaultyQA: Benchmarking LLMs on Faulty Science Question Detection with a GAN-Inspired Approach to Synthetic Dataset Generation [0.0]
現在の大きな言語モデル(LLM)は、しばしば「0.5」と答えるが、意味をなさない。
我々はSciFaultyQAという科学的な質問のデータセットを開発しました。
論文 参考訳(メタデータ) (2024-12-16T17:11:48Z) - Enhancing LLMs for Physics Problem-Solving using Reinforcement Learning with Human-AI Feedback [33.000541253136745]
大規模言語モデル(LLM)は、テキストベースのタスクにおいて強力な能力を示してきたが、物理学的な問題に必要な複雑な推論に苦慮している。
本稿では,人間・人工知能フィードバックを用いた強化学習(RLHAIF)を用いた物理問題におけるLLM性能向上のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-12-06T21:17:47Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z) - Are You Sure? Challenging LLMs Leads to Performance Drops in The
FlipFlop Experiment [82.60594940370919]
大規模言語モデル(LLM)のマルチターン動作を研究するためのFlipFlop実験を提案する。
モデルが平均46%の時間で回答を反転させ、全てのモデルが最初の予測と最終予測の間に精度を低下させ、平均17%の低下(FlipFlop効果)を示す。
我々はオープンソースのLLMで微調整実験を行い、合成されたデータに対する微調整は、性能劣化を60%低減させることができるが、サイコファンティックな振る舞いを完全には解決できないことを発見した。
論文 参考訳(メタデータ) (2023-11-14T23:40:22Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - Evaluating Large Language Models on a Highly-specialized Topic,
Radiation Oncology Physics [9.167699167689369]
本稿では,放射線オンコロジー物理の分野におけるLSMの評価について述べる。
我々は放射線オンコロジー物理100問からなる試験を開発した。
ChatGPT (GPT-3.5), ChatGPT (GPT-4), Bard (LaMDA), BLOOMZは, 医師や非専門家に対して評価された。
論文 参考訳(メタデータ) (2023-04-01T06:04:58Z) - Learn to Explain: Multimodal Reasoning via Thought Chains for Science
Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。
また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。
我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文 参考訳(メタデータ) (2022-09-20T07:04:24Z) - PROST: Physical Reasoning of Objects through Space and Time [68.69796589964076]
このデータセットには、14のテンプレートを手作業でキュレートした18,736の多重選択質問が含まれている。
我々は、最先端の事前学習モデルが物理的推論において不十分であることを示す分析を行う。
論文 参考訳(メタデータ) (2021-06-07T14:06:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。