論文の概要: Evaluation of GPT-based large language generative AI models as study aids for the national licensure examination for registered dietitians in Japan
- arxiv url: http://arxiv.org/abs/2508.10011v1
- Date: Tue, 05 Aug 2025 03:33:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.002558
- Title: Evaluation of GPT-based large language generative AI models as study aids for the national licensure examination for registered dietitians in Japan
- Title(参考訳): GPTをベースとした大規模言語生成AIモデルの評価 : 日本における登録栄養士の免許試験における研究支援として
- Authors: Yuta Nagamori, Mikoto Kosai, Yuji Kawai, Haruka Marumo, Misaki Shibuya, Tatsuya Negishi, Masaki Imanishi, Yasumasa Ikeda, Koichiro Tsuchiya, Asuka Sawai, Licht Miyamoto,
- Abstract要約: 大規模言語モデル(LLM)に基づく生成人工知能(AI)は、様々な専門分野において顕著な進歩を見せている。
本研究は、栄養学生を対象とした研究支援として、現在のLLMベースのAIモデルの可能性を評価することを目的としている。
Bing-PreciseとBing-Creativeは一般に栄養教育以外の科目で成績を上げた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative artificial intelligence (AI) based on large language models (LLMs), such as ChatGPT, has demonstrated remarkable progress across various professional fields, including medicine and education. However, their performance in nutritional education, especially in Japanese national licensure examination for registered dietitians, remains underexplored. This study aimed to evaluate the potential of current LLM-based generative AI models as study aids for nutrition students. Questions from the Japanese national examination for registered dietitians were used as prompts for ChatGPT and three Bing models (Precise, Creative, Balanced), based on GPT-3.5 and GPT-4. Each question was entered into independent sessions, and model responses were analyzed for accuracy, consistency, and response time. Additional prompt engineering, including role assignment, was tested to assess potential performance improvements. Bing-Precise (66.2%) and Bing-Creative (61.4%) surpassed the passing threshold (60%), while Bing-Balanced (43.3%) and ChatGPT (42.8%) did not. Bing-Precise and Bing-Creative generally outperformed others across subject fields except Nutrition Education, where all models underperformed. None of the models consistently provided the same correct responses across repeated attempts, highlighting limitations in answer stability. ChatGPT showed greater consistency in response patterns but lower accuracy. Prompt engineering had minimal effect, except for modest improvement when correct answers and explanations were explicitly provided. While some generative AI models marginally exceeded the passing threshold, overall accuracy and answer consistency remained suboptimal. Moreover, all the models demonstrated notable limitations in answer consistency and robustness. Further advancements are needed to ensure reliable and stable AI-based study aids for dietitian licensure preparation.
- Abstract(参考訳): ChatGPTのような大規模言語モデル(LLM)に基づく生成人工知能(AI)は、医学や教育など、様々な専門分野において顕著な進歩を見せている。
しかし、栄養教育、特に日本における登録食生活士の免許試験における成績は未定である。
本研究は、栄養学生を対象とした学習支援として、現在のLLMベースの生成AIモデルの可能性を評価することを目的としている。
GPT-3.5およびGPT-4に基づくChatGPTと3つのBingモデル(Precise, Creative, Balanced)のプロンプトとして,登録食生活者に対する全国試験からの質問紙を用いた。
各質問は独立したセッションに入力され、モデルの応答は正確性、一貫性、応答時間のために分析された。
ロール割り当てを含む追加のプロンプトエンジニアリングは、潜在的なパフォーマンス改善を評価するためにテストされた。
Bing-Precise (66.2%) と Bing-Creative (61.4%) は通過閾値 (60%) を越え、Bing-Balanced (43.3%) と ChatGPT (42.8%) は通過しなかった。
Bing-Precise と Bing-Creative は一般的に、栄養教育以外の科目で他よりも優れており、全てのモデルでは成績が低かった。
いずれのモデルも繰り返し試みにまたがって同じ正しい応答を提供しておらず、答え安定性の制限を強調していた。
ChatGPTは応答パターンの整合性が高かったが,精度は低かった。
プロンプトエンジニアリングは、正しい回答と説明が明示的に提供されたときを除いて、最小限の効果しか与えなかった。
一部の生成AIモデルは通過閾値をわずかに上回ったが、全体的な精度と回答の一貫性は最適以下であった。
さらに、全てのモデルでは、応答の一貫性と堅牢性に顕著な制限が示されていた。
食事用ライセンスの準備のために、信頼性と安定したAIベースの研究支援を確保するために、さらなる進歩が必要である。
関連論文リスト
- Could ChatGPT get an Engineering Degree? Evaluating Higher Education Vulnerability to AI Assistants [176.39275404745098]
我々は,2つのAIアシスタントであるGPT-3.5とGPT-4が適切な回答を得られるかどうかを評価する。
GPT-4は65.8%の質問を正解し、85.1%の質問に対して少なくとも1つの手順で正しい答えを出すことができる。
この結果から,AIの進歩を踏まえて,高等教育におけるプログラムレベルの評価設計の見直しが求められた。
論文 参考訳(メタデータ) (2024-08-07T12:11:49Z) - DeepSeek-Prover: Advancing Theorem Proving in LLMs through Large-Scale Synthetic Data [65.5290035371111]
本稿では,高校・学部レベルの数学競争問題から得られたリーン4証明データを生成する手法を提案する。
この合成データセットでDeepSeekMath 7Bモデルを微調整します。
我々のモデルは、Lean 4 Formalized International Mathematical Olympiad (FIMO)ベンチマークで148の問題を5つ証明しましたが、GPT-4は証明できませんでした。
論文 参考訳(メタデータ) (2024-05-23T09:03:42Z) - GPT-4 passes most of the 297 written Polish Board Certification Examinations [0.5461938536945723]
本研究では,ポーランド委員会認定試験(Pa'nstwowy Egzamin Specjalizacyjny, PES)における3つの生成事前学習変圧器(GPT)モデルの性能評価を行った。
GPTモデルは、特定の専門分野に関する試験において卓越した性能を示しながら、他の分野では完全に失敗するなど、大きく変化した。
論文 参考訳(メタデータ) (2024-04-29T09:08:22Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - ARB: Advanced Reasoning Benchmark for Large Language Models [94.37521840642141]
複数の分野における先進的推論問題からなる新しいベンチマークであるABBを紹介する。
ARBのサブセットとして、高度なシンボリック推論とドメイン知識を必要とする数学と物理学の問題を紹介する。
我々は, GPT-4 や Claude on ARB などの最近のモデルを評価し, より要求の高いタスクにおいて, 現在のモデルが50%以下であることを示す。
論文 参考訳(メタデータ) (2023-07-25T17:55:19Z) - Improving accuracy of GPT-3/4 results on biomedical data using a
retrieval-augmented language model [0.0]
大規模言語モデル(LLM)は自然言語処理(NLP)において大きな進歩を遂げている。
集中型コーパスでのLLMのトレーニングは、計算上の課題を提起する。
別のアプローチとして、特定のドメインでテストされた検索拡張(RetA)メソッドを使用する方法がある。
OpenAIのGPT-3, GPT-4, BingのPrometheus, および独自のRetAモデルを比較した。
論文 参考訳(メタデータ) (2023-05-26T17:33:05Z) - Artificial Intelligence in Ovarian Cancer Histopathology: A Systematic
Review [1.832300121391956]
方法: PubMed, Scopus, Web of Science, CENTRAL, WHO-ICTRPの検索を行った。
PROBASTを用いてバイアスのリスクを評価した。
37の診断モデル、22の予後モデル、21の診断関連結果を含む80の関心モデルがあった。
すべてのモデルが全体として偏見のリスクが高いか、あるいは不明確であることが判明し、ほとんどの研究は分析において偏見のリスクが高いことが判明した。
論文 参考訳(メタデータ) (2023-03-31T12:26:29Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。