論文の概要: Who's the Best Detective? LLMs vs. MLs in Detecting Incoherent Fourth
Grade Math Answers
- arxiv url: http://arxiv.org/abs/2304.11257v1
- Date: Fri, 21 Apr 2023 21:25:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 19:35:08.803967
- Title: Who's the Best Detective? LLMs vs. MLs in Detecting Incoherent Fourth
Grade Math Answers
- Title(参考訳): 最高の探偵は誰だ?
不一致の4年生数学答の検出における llms と mls の比較
- Authors: Felipe Urrutia and Roberto Araya
- Abstract要約: 3大言語モデル(LLM)を用いた数学における4年生の応答の分析
その結果,LLMは不整合解の検出において機械学習(ML)よりも優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Written answers to open-ended questions can have a higher long-term effect on
learning than multiple-choice questions. However, it is critical that teachers
immediately review the answers, and ask to redo those that are incoherent. This
can be a difficult task and can be time-consuming for teachers. A possible
solution is to automate the detection of incoherent answers. One option is to
automate the review with Large Language Models (LLM). In this paper, we analyze
the responses of fourth graders in mathematics using three LLMs: GPT-3, BLOOM,
and YOU. We used them with zero, one, two, three and four shots. We compared
their performance with the results of various classifiers trained with Machine
Learning (ML). We found that LLMs perform worse than MLs in detecting
incoherent answers. The difficulty seems to reside in recursive questions that
contain both questions and answers, and in responses from students with typical
fourth-grader misspellings. Upon closer examination, we have found that the
ChatGPT model faces the same challenges.
- Abstract(参考訳): オープンエンドの質問に対する回答は、複数の質問よりも学習に長期的な影響を与える可能性がある。
しかし,教師が即座に回答をレビューし,一貫性のない回答を再検討することが重要である。
これは難しい作業であり、教師にとって時間がかかります。
可能な解決策は、一貫性のない回答の自動検出である。
1つの選択肢は、Large Language Models (LLM)によるレビューを自動化することである。
本稿では,GPT-3,BLOOM,YOUの3つのLLMを用いて,数学における4年生の反応を分析する。
ゼロ、1、2、3、4ショットで使用しました。
機械学習(ml)で学習した各種分類器の結果と比較した。
その結果,LLMはMLよりも不整合性の検出に優れていた。
難易度は、質問と回答の両方を含む再帰的な質問と、典型的な4年生のミススペルの学生からの回答に存在している。
より精査した結果,ChatGPTモデルも同じ課題に直面していることがわかった。
関連論文リスト
- Which of These Best Describes Multiple Choice Evaluation with LLMs? A) Forced B) Flawed C) Fixable D) All of the Above [14.5781090243416]
複数の選択質問応答(MCQA)は、単純さと人間らしいテストのため、LCMの評価に人気がある。
1) テスト生成/サブジェクティビティ,2) LLM のユースケースにマッチする,3) 完全なテスト知識。
論文 参考訳(メタデータ) (2025-02-19T22:11:52Z) - Comparison of Large Language Models for Generating Contextually Relevant Questions [6.080820450677854]
GPT-3.5、Llama 2-Chat 13B、T5 XXLは、微調整なしで大学のスライドテキストから質問を生成する能力を比較する。
その結果, GPT-3.5 と Llama 2-Chat 13B は T5 XXL よりも小さなマージン, 特に明瞭度と質問応答アライメントで優れていた。
論文 参考訳(メタデータ) (2024-07-30T06:23:59Z) - Can LLMs Master Math? Investigating Large Language Models on Math Stack Exchange [25.419977967846144]
大規模言語モデル(LLM)は、様々な自然言語タスクにおいて例外的な機能を示した。
本稿では、複雑な数学的問題解決をナビゲートする上でのLLMの限界について考察する。
論文 参考訳(メタデータ) (2024-03-30T12:48:31Z) - MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems? [99.0305256706604]
MLLMの公平かつ詳細な評価のために設計された全周視覚数学ベンチマークであるMathVerseを紹介する。
我々は,2,612の高品位・多目的数学問題を,公開情報源の図を用いて慎重に収集する。
このアプローチにより、MathVerseは、数学的推論のためのビジュアルダイアグラムを、どの程度のMLLMが真に理解できるかを包括的に評価することができる。
論文 参考訳(メタデータ) (2024-03-21T17:59:50Z) - Benchmarking Hallucination in Large Language Models based on
Unanswerable Math Word Problem [58.3723958800254]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて非常に効果的である。
それらは幻覚と呼ばれる曖昧な文脈で信頼できない予想を生じさせる可能性がある。
本稿では,不問答語問題(MWP)に基づく質問回答(QA)におけるLLM幻覚評価手法を提案する。
論文 参考訳(メタデータ) (2024-03-06T09:06:34Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z) - Improving Zero-shot Visual Question Answering via Large Language Models
with Reasoning Question Prompts [22.669502403623166]
本稿では,VQAタスクに対する推論質問プロンプトを提案する。
自己完結した質問は、教師なし質問セットモジュールを介して推論された質問プロンプトとして生成する。
各推論質問は、元の質問の意図を明確に示す。
そして、回答整合性として働く信頼度スコアに関連する候補回答をLSMに入力する。
論文 参考訳(メタデータ) (2023-11-15T15:40:46Z) - SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step
Reasoning [55.76083560152823]
SelfCheckは、ステップバイステップの推論でエラーを認識する汎用的なゼロショット検証スキーマである。
我々は,3つのデータセット(GSM8K,MathQA,MATH)上でSelfCheckをテストし,エラーの認識に成功し,最終的な回答精度が向上することを確認した。
論文 参考訳(メタデータ) (2023-08-01T10:31:36Z) - Exploring the Responses of Large Language Models to Beginner
Programmers' Help Requests [1.8260333137469122]
大規模言語モデル(LLM)が、学生が助けを求める問題のあるコードの問題を特定するのにいかに優れているかを評価する。
オンラインプログラミングコースからヘルプリクエストとコードのサンプルを収集しました。
論文 参考訳(メタデータ) (2023-06-09T07:19:43Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。