Fugu-MT 論文翻訳(概要): MCQG-SRefine: Multiple Choice Question Generation and Evaluation with Iterative Self-Critique, Correction, and Comparison Feedback

論文の概要: MCQG-SRefine: Multiple Choice Question Generation and Evaluation with Iterative Self-Critique, Correction, and Comparison Feedback

arxiv url: http://arxiv.org/abs/2410.13191v2
Date: Fri, 18 Oct 2024 16:42:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:36.733927
Title: MCQG-SRefine: Multiple Choice Question Generation and Evaluation with Iterative Self-Critique, Correction, and Comparison Feedback
Title（参考訳）: MCQG-Srefine: 反復的自己批判・訂正・比較フィードバックによる複数選択質問生成と評価
Authors: Zonghai Yao, Aditya Parashar, Huixue Zhou, Won Seok Jang, Feiyun Ouyang, Zhichao Yang, Hong Yu,
Abstract要約: 医療事例を高品質なUSMLEスタイルの質問に変換する枠組みを提案する。 MCQG-SRefineは、専門家主導のプロンプトエンジニアリングと反復的な自己批判と自己補正フィードバックを統合している。複雑でコストのかかる専門家評価プロセスを置き換えるため, LLM-as-Judge を用いた自動計測手法を提案する。
参考スコア（独自算出の注目度）: 6.681247642186701
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automatic question generation (QG) is essential for AI and NLP, particularly in intelligent tutoring, dialogue systems, and fact verification. Generating multiple-choice questions (MCQG) for professional exams, like the United States Medical Licensing Examination (USMLE), is particularly challenging, requiring domain expertise and complex multi-hop reasoning for high-quality questions. However, current large language models (LLMs) like GPT-4 struggle with professional MCQG due to outdated knowledge, hallucination issues, and prompt sensitivity, resulting in unsatisfactory quality and difficulty. To address these challenges, we propose MCQG-SRefine, an LLM self-refine-based (Critique and Correction) framework for converting medical cases into high-quality USMLE-style questions. By integrating expert-driven prompt engineering with iterative self-critique and self-correction feedback, MCQG-SRefine significantly enhances human expert satisfaction regarding both the quality and difficulty of the questions. Furthermore, we introduce an LLM-as-Judge-based automatic metric to replace the complex and costly expert evaluation process, ensuring reliable and expert-aligned assessments.
Abstract（参考訳）: 自動質問生成(QG)はAIやNLP、特にインテリジェントなチュータリング、対話システム、事実検証において不可欠である。米国医学ライセンス試験(USMLE)のような専門試験のための多重選択質問(MCQG)を生成することは特に困難であり、ドメインの専門知識と高品質な質問に対する複雑なマルチホップ推論を必要とする。しかし、GPT-4のような現在の大規模言語モデル(LLM)は、時代遅れの知識、幻覚の問題、迅速な感度のためにプロのMCQGと競合し、満足できない品質と難しさをもたらす。これらの課題に対処するため, MCQG-SRefineは, LLMの自己修復型(批判と訂正)フレームワークで, 医療を高品質なUSMLEスタイルの質問に変換する。 MCQG-SRefineは、専門家主導のプロンプトエンジニアリングと反復的な自己批判と自己補正フィードバックを統合することにより、質問の品質と難易度に関する人間の専門家の満足度を大幅に向上させる。さらに, LLM-as-Judgeに基づく自動計測手法を導入し, 複雑でコストのかかる専門家評価プロセスを置き換え, 信頼性と専門家対応の評価を確実にする。

関連論文リスト

Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)を評価するために最も広く使われているタスクの1つは、Multiple-Choice Question Answering (MCQA)である。本研究は,MCQA評価戦略の不整合を軽視し,不正確かつ誤ったモデル比較に繋がる可能性がある。
論文参考訳（メタデータ） (2025-03-19T08:45:03Z)
MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding [20.83722922095852]
MedXpertQAには17の専門分野と11の身体システムにまたがる4,460の質問が含まれている。 MMは、多様な画像と豊富な臨床情報を備えた専門家レベルの試験問題を導入する。
論文参考訳（メタデータ） (2025-01-30T14:07:56Z)
MINTQA: A Multi-Hop Question Answering Benchmark for Evaluating LLMs on New and Tail Knowledge [24.66666826440994]
MINTQAは、マルチホップ推論における大規模言語モデルの能力を評価するベンチマークである。 MINTQAは、新しい知識を評価するための10,479対の質問応答ペアと、長い知識を評価するための17,887対の質問応答ペアからなる。 MINTQA上での22の最先端LCMの体系的評価により,複雑な知識ベースクエリを扱う能力に重大な制限があることが判明した。
論文参考訳（メタデータ） (2024-12-22T14:17:12Z)
AGENT-CQ: Automatic Generation and Evaluation of Clarifying Questions for Conversational Search with LLMs [53.6200736559742]
エージェント-CQは、世代ステージと評価ステージの2つのステージから構成される。 CrowdLLMは、人間のクラウドソーシング判断をシミュレートして、生成された質問や回答を評価する。 ClariQデータセットの実験では、質問と回答の品質を評価するCrowdLLMの有効性が示されている。
論文参考訳（メタデータ） (2024-10-25T17:06:27Z)
Application of Large Language Models in Automated Question Generation: A Case Study on ChatGLM's Structured Questions for National Teacher Certification Exams [2.7363336723930756]
本研究では,全国教師認定試験(NTCE)における構造化質問の自動生成における大規模言語モデル(LLM)ChatGLMの適用可能性について検討する。筆者らは,ChatGLMを指導し,一連の模擬質問を生成するとともに,過去の質問を総合的に比較した。研究結果は,ChatGLMが生み出した質問は,実際の試験質問と同様,高い合理性,科学的性,実践性を示すことを示している。
論文参考訳（メタデータ） (2024-08-19T13:32:14Z)
Ranking Generated Answers: On the Agreement of Retrieval Models with Humans on Consumer Health Questions [25.158868133182025]
本稿では,生成型大規模言語モデル(LLM)の出力を評価する手法を提案する。我々の採点法は, 専門家の嗜好と相関する。生成した回答の質がモデルのサイズによって向上する、よく知られた事実を検証して検証する。
論文参考訳（メタデータ） (2024-08-19T09:27:45Z)
Automated Educational Question Generation at Different Bloom's Skill Levels using Large Language Models: Strategies and Evaluation [0.0]
我々は,5つの最先端の大規模言語モデルを用いて,認知レベルの多様で高品質な質問を生成する能力について検討した。以上の結果から,LLmsは適切な情報によって認知レベルが異なる関連性のある,高品質な教育的質問を生じさせる可能性が示唆された。
論文参考訳（メタデータ） (2024-08-08T11:56:57Z)
An Automatic Question Usability Evaluation Toolkit [1.2499537119440245]
多重選択質問(MCQ)を評価するには、労働集約的な人的評価か、可読性を優先する自動化方法のいずれかが必要となる。 MCQの総合的かつ自動化された品質評価のために,IWFルーブリックを利用したオープンソースツールであるSAQUETを紹介する。 94%以上の精度で,既存の評価手法の限界を強調し,教育評価の質向上の可能性を示した。
論文参考訳（メタデータ） (2024-05-30T23:04:53Z)
A Joint-Reasoning based Disease Q&A System [6.117758142183177]
医療質問応答(QA)アシスタントは、複数のソースから情報を合成することで、レイユーザーの健康関連クエリに応答する。彼らは、誤った情報、情報過負荷、医療言語の複雑さの問題を緩和するための重要なツールとして機能する。
論文参考訳（メタデータ） (2024-01-06T09:55:22Z)
PokeMQA: Programmable knowledge editing for Multi-hop Question Answering [46.80110170981976]
マルチホップ質問応答(MQA)は、マシンの理解と推論能力を評価する上で難しいタスクの1つである。マルチホップ質問回答(MQA)のためのフレームワーク、Programmable Knowledge Editorを提案する。具体的には、LLMの動作を外部のコンフリクト信号に応じて変調する訓練可能なスコープ検出器と相互作用しながら、知識強化されたマルチホップ質問を分解するよう促す。
論文参考訳（メタデータ） (2023-12-23T08:32:13Z)
ExpertQA: Expert-Curated Questions and Attributed Answers [51.68314045809179]
我々は,様々な属性と事実の軸に沿って,いくつかの代表システムからの応答を人為的に評価する。我々は32分野にわたる484人の被験者から専門家による質問を収集し、同じ専門家に自身の質問に対する反応を評価する。分析の結果は,32分野にまたがる2177の質問と,回答の検証とクレームの属性を備えた高品質な長文QAデータセットであるExpertQAである。
論文参考訳（メタデータ） (2023-09-14T16:54:34Z)
Improving the Question Answering Quality using Answer Candidate Filtering based on Natural-Language Features [117.44028458220427]
本稿では,質問応答(QA)の品質をいかに改善できるかという課題に対処する。私たちの主な貢献は、QAシステムが提供する間違った回答を識別できるアプローチです。特に,提案手法は誤答の大部分を除去しつつ,その可能性を示した。
論文参考訳（メタデータ） (2021-12-10T11:09:44Z)
Interpretable Multi-Step Reasoning with Knowledge Extraction on Complex Healthcare Question Answering [89.76059961309453]
HeadQAデータセットには、公衆医療専門試験で認可された複数の選択質問が含まれている。これらの質問は、現在のQAシステムにとって最も難しいものです。知識抽出フレームワーク(MurKe)を用いた多段階推論を提案する。市販の事前訓練モデルを完全に活用しようと努力しています。
論文参考訳（メタデータ） (2020-08-06T02:47:46Z)
Reinforced Multi-task Approach for Multi-hop Question Generation [47.15108724294234]
我々は,その文脈における支援事実に基づいて,関連する質問を生成することを目的としたマルチホップ質問生成を取り上げている。我々は,質問生成を導くために,回答認識支援事実予測の補助タスクを備えたマルチタスク学習を採用する。マルチホップ質問応答データセットHotPotQAの実験を通して,提案手法の有効性を実証する。
論文参考訳（メタデータ） (2020-04-05T10:16:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。