Fugu-MT 論文翻訳(概要): A recent evaluation on the performance of LLMs on radiation oncology physics using questions of randomly shuffled options

論文の概要: A recent evaluation on the performance of LLMs on radiation oncology physics using questions of randomly shuffled options

arxiv url: http://arxiv.org/abs/2412.10622v3
Date: Tue, 21 Jan 2025 17:20:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-22 15:04:32.754248
Title: A recent evaluation on the performance of LLMs on radiation oncology physics using questions of randomly shuffled options
Title（参考訳）: ランダムシャッフルオプション問題を用いた放射線オンコロジー物理におけるLCMの性能評価
Authors: Peilong Wang, Jason Holmes, Zhengliang Liu, Dequan Chen, Tianming Liu, Jiajian Shen, Wei Liu,
Abstract要約: 放射線オンコロジー物理における5つの大言語モデル(LLM)の性能評価を行った。 LLMの性能は、医学物理学者の回答と比較された。
参考スコア（独自算出の注目度）: 17.824682629332234
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Purpose: We present an updated study evaluating the performance of large language models (LLMs) in answering radiation oncology physics questions, focusing on the recently released models. Methods: A set of 100 multiple-choice radiation oncology physics questions, previously created by a well-experienced physicist, was used for this study. The answer options of the questions were randomly shuffled to create "new" exam sets. Five LLMs -- OpenAI o1-preview, GPT-4o, LLaMA 3.1 (405B), Gemini 1.5 Pro, and Claude 3.5 Sonnet -- with the versions released before September 30, 2024, were queried using these new exam sets. To evaluate their deductive reasoning ability, the correct answer options in the questions were replaced with "None of the above." Then, the explain-first and step-by-step instruction prompts were used to test if this strategy improved their reasoning ability. The performance of the LLMs was compared with the answers from medical physicists. Results: All models demonstrated expert-level performance on these questions, with o1-preview even surpassing medical physicists with a majority vote. When replacing the correct answer options with 'None of the above', all models exhibited a considerable decline in performance, suggesting room for improvement. The explain-first and step-by-step instruction prompts helped enhance the reasoning ability of the LLaMA 3.1 (405B), Gemini 1.5 Pro, and Claude 3.5 Sonnet models. Conclusion: These recently released LLMs demonstrated expert-level performance in answering radiation oncology physics questions, exhibiting great potential to assist in radiation oncology physics education and training.
Abstract（参考訳）: 目的: 大規模言語モデル(LLM)の性能を評価するため, 放射線オンコロジーの物理問題に対する回答として, 最近発表されたモデルに着目した最新の研究を提案する。方法: 経験豊富な物理学者によって以前に作成された100の多重選択放射線オンコロジー物理学の質問が本研究に用いられた。質問の答えオプションはランダムにシャッフルされ、「新しい」試験セットが作成されました。オープンAI o1-preview, GPT-4o, LLaMA 3.1 (405B), Gemini 1.5 Pro, Claude 3.5 Sonnetの5つのLCMが2024年9月30日にリリースされた。帰納的推論能力を評価するため,質問の正解オプションを「上述しない」に置き換えた。そして、この戦略が推論能力を向上させたかどうかをテストするために、説明ファーストとステップバイステップの指示プロンプトを使用した。 LLMの性能は、医学物理学者の回答と比較された。結果: 全てのモデルがこれらの質問に対して専門家レベルのパフォーマンスを示し, o1-preview は多数決で医学物理学者を抜いた。正しい解答オプションを「上記のものなし」に置き換えると、全てのモデルの性能は大幅に低下し、改善の余地が示唆された。 LLaMA 3.1 (405B)、ジェミニ1.5 Pro、クロード3.5ソンネットの推論能力の向上に寄与した。結論:最近発表されたLSMは放射線オンコロジー物理学の質問に答える専門家レベルの性能を示し,放射線オンコロジー物理学の教育とトレーニングを支援する大きな可能性を示した。

関連論文リスト

ABench-Physics: Benchmarking Physical Reasoning in LLMs via High-Difficulty and Dynamic Physics Problems [21.278539804482012]
大規模言語モデル(LLM)は、数学やプログラミングのような領域で顕著なパフォーマンスを示している。物理学は、正確な計算だけでなく、深い概念的理解と物理モデリングスキルも要求する固有の課題を提起する。既存のベンチマークは、制限された難易度、複数選択フォーマット、静的評価設定のために、しばしば不足する。
論文参考訳（メタデータ） (2025-07-07T08:43:56Z)
PhysUniBench: An Undergraduate-Level Physics Reasoning Benchmark for Multimodal Models [69.73115077227969]
大規模言語モデル(MLLM)の推論能力の評価と改善を目的とした大規模ベンチマークであるPhysUniBenchを提案する。 PhysUniBenchは、3,304の物理問題から成っている。ベンチマークの構成には、複数のロールアウト、専門家レベルの評価、解決が容易な問題の自動フィルタリング、そして5段階の難易度グレーディングシステムを含む、厳格な多段階プロセスが含まれていた。
論文参考訳（メタデータ） (2025-06-21T09:55:42Z)
UGPhysics: A Comprehensive Benchmark for Undergraduate Physics Reasoning with Large Language Models [39.917074900737575]
大規模言語モデル(LLM)は、複雑な推論タスクを解く際、顕著な能力を示した。物理学の推論の領域は、非常に少ない注意を払われたユニークな課題を提示する。既存のベンチマークは、学部レベルの物理学の広さと深さでLLMの能力を評価するのに不足することが多い。
論文参考訳（メタデータ） (2025-02-01T06:42:02Z)
Humanity's Last Exam [434.8511341499966]
HumanityのLast Exam(HLE)は、人間の知識の最前線におけるマルチモーダルベンチマークである。数学、人文科学、自然科学など、数十の分野にまたがる2,500の質問で構成されている。各質問には、曖昧で容易に検証できる既知のソリューションがあるが、インターネット検索ではすぐには答えられない。
論文参考訳（メタデータ） (2025-01-24T05:27:46Z)
SciFaultyQA: Benchmarking LLMs on Faulty Science Question Detection with a GAN-Inspired Approach to Synthetic Dataset Generation [0.0]
現在の大きな言語モデル(LLM)は、しばしば「0.5」と答えるが、意味をなさない。我々はSciFaultyQAという科学的な質問のデータセットを開発しました。
論文参考訳（メタデータ） (2024-12-16T17:11:48Z)
Enhancing LLMs for Physics Problem-Solving using Reinforcement Learning with Human-AI Feedback [33.000541253136745]
大規模言語モデル(LLM)は、テキストベースのタスクにおいて強力な能力を示してきたが、物理学的な問題に必要な複雑な推論に苦慮している。本稿では,人間・人工知能フィードバックを用いた強化学習(RLHAIF)を用いた物理問題におけるLLM性能向上のための新しいアプローチを提案する。
論文参考訳（メタデータ） (2024-12-06T21:17:47Z)
MaterialBENCH: Evaluating College-Level Materials Science Problem-Solving Abilities of Large Language Models [7.559885439354167]
材料科学分野における大規模言語モデル(LLM)のための大学レベルのベンチマークデータセットであるMaterialBENCHを構築した。このデータセットは、大学教科書に基づく問題解決ペアで構成されている。
論文参考訳（メタデータ） (2024-09-05T01:36:00Z)
Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。 i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文参考訳（メタデータ） (2024-01-17T18:13:07Z)
R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文参考訳（メタデータ） (2023-11-16T08:45:44Z)
Are You Sure? Challenging LLMs Leads to Performance Drops in The FlipFlop Experiment [82.60594940370919]
大規模言語モデル(LLM)のマルチターン動作を研究するためのFlipFlop実験を提案する。モデルが平均46%の時間で回答を反転させ、全てのモデルが最初の予測と最終予測の間に精度を低下させ、平均17%の低下(FlipFlop効果)を示す。我々はオープンソースのLLMで微調整実験を行い、合成されたデータに対する微調整は、性能劣化を60%低減させることができるが、サイコファンティックな振る舞いを完全には解決できないことを発見した。
論文参考訳（メタデータ） (2023-11-14T23:40:22Z)
FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文参考訳（メタデータ） (2023-10-05T00:04:12Z)
Evaluating Large Language Models on a Highly-specialized Topic, Radiation Oncology Physics [9.167699167689369]
本稿では,放射線オンコロジー物理の分野におけるLSMの評価について述べる。我々は放射線オンコロジー物理100問からなる試験を開発した。 ChatGPT (GPT-3.5), ChatGPT (GPT-4), Bard (LaMDA), BLOOMZは, 医師や非専門家に対して評価された。
論文参考訳（メタデータ） (2023-04-01T06:04:58Z)
Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文参考訳（メタデータ） (2022-09-20T07:04:24Z)
Can large language models reason about medical questions? [7.95779617839642]
実世界の難解な質問に対する回答と推論に,オープンソースモデルとクローズドモデルを適用することができるかを検討する。我々は、MedQA-USMLE、MedMCQA、PubMedQAの3つの人気のある医療ベンチマークと複数のプロンプトシナリオに焦点を当てた。生成されたCoTのエキスパートアノテーションに基づいて、InstructGPTは専門家の知識を読み、分析し、リコールすることができることがわかった。
論文参考訳（メタデータ） (2022-07-17T11:24:44Z)
PROST: Physical Reasoning of Objects through Space and Time [68.69796589964076]
このデータセットには、14のテンプレートを手作業でキュレートした18,736の多重選択質問が含まれている。我々は、最先端の事前学習モデルが物理的推論において不十分であることを示す分析を行う。
論文参考訳（メタデータ） (2021-06-07T14:06:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。