論文の概要: STRIVE: A Think & Improve Approach with Iterative Refinement for Enhancing Question Quality Estimation
- arxiv url: http://arxiv.org/abs/2504.05693v1
- Date: Tue, 08 Apr 2025 05:34:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:31:37.169842
- Title: STRIVE: A Think & Improve Approach with Iterative Refinement for Enhancing Question Quality Estimation
- Title(参考訳): STRIVE: 質問品質評価の促進を目的とした反復的改善による思考改善アプローチ
- Authors: Aniket Deroy, Subhankar Maity,
- Abstract要約: 本稿では,LLM(Large Language Models)を自動質問評価に用いるSTRIVEと呼ばれる新しい手法を提案する。
提案手法は,提案した質問の強みと弱みに基づいて複数の評価を自動で生成することにより,質問品質を推定する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Automatically assessing question quality is crucial for educators as it saves time, ensures consistency, and provides immediate feedback for refining teaching materials. We propose a novel methodology called STRIVE (Structured Thinking and Refinement with multiLLMs for Improving Verified Question Estimation) using a series of Large Language Models (LLMs) for automatic question evaluation. This approach aims to improve the accuracy and depth of question quality assessment, ultimately supporting diverse learners and enhancing educational practices. The method estimates question quality in an automated manner by generating multiple evaluations based on the strengths and weaknesses of the provided question and then choosing the best solution generated by the LLM. Then the process is improved by iterative review and response with another LLM until the evaluation metric values converge. This sophisticated method of evaluating question quality improves the estimation of question quality by automating the task of question quality evaluation. Correlation scores show that using this proposed method helps to improve correlation with human judgments compared to the baseline method. Error analysis shows that metrics like relevance and appropriateness improve significantly relative to human judgments by using STRIVE.
- Abstract(参考訳): 質問品質の自動評価は、時間を節約し、一貫性を確保し、教材の修復に即時フィードバックを提供するため、教育者にとって不可欠である。
本稿では,複数の大規模言語モデル (LLM) を用いて自動質問評価を行うSTRIVE (Structured Thinking and Refinement with multiLLMs for Improving Verified Question Estimation) という手法を提案する。
このアプローチは,質問品質評価の精度と深さを向上し,究極的には多様な学習者を支援し,教育実践を強化することを目的としている。
提案手法は,提案した質問の強みと弱みに基づいて複数の評価を自動で生成し,LLMが生成する最良の解を選択することにより,質問品質を推定する。
そして、評価基準値が収束するまで、他のLCMとの反復的なレビューと応答によりプロセスが改善される。
この高度な質問品質評価手法は、質問品質評価のタスクを自動化することにより、質問品質の推定を改善する。
相関スコアは,本手法を用いることで,基準法と比較して人的判断との相関性を向上させることができることを示す。
誤り分析は、関係性や適切性などの指標がSTRIVEを用いて人的判断に対して著しく改善することを示している。
関連論文リスト
- HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。
HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。
本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文 参考訳(メタデータ) (2024-12-20T03:26:47Z) - AGENT-CQ: Automatic Generation and Evaluation of Clarifying Questions for Conversational Search with LLMs [53.6200736559742]
エージェント-CQは、世代ステージと評価ステージの2つのステージから構成される。
CrowdLLMは、人間のクラウドソーシング判断をシミュレートして、生成された質問や回答を評価する。
ClariQデータセットの実験では、質問と回答の品質を評価するCrowdLLMの有効性が示されている。
論文 参考訳(メタデータ) (2024-10-25T17:06:27Z) - MIRROR: A Novel Approach for the Automated Evaluation of Open-Ended Question Generation [0.4857223913212445]
自動質問生成システムによって生成される質問に対する評価プロセスを自動化する新しいシステムMIRRORを提案する。
その結果,MIRRORと呼ばれるフィードバックに基づく手法を用いることで,人間の評価指標,すなわち妥当性,適切性,新規性,複雑性,文法性のスコアが向上した。
論文 参考訳(メタデータ) (2024-10-16T12:24:42Z) - An Automatic and Cost-Efficient Peer-Review Framework for Language Generation Evaluation [29.81362106367831]
既存の評価手法は、しばしば高いコスト、限られたテスト形式、人間の参照の必要性、体系的な評価バイアスに悩まされる。
人間のアノテーションに依存する以前の研究とは対照的に、Auto-PREはそれら固有の特性に基づいて自動的に評価者を選択する。
実験結果から,我々のAuto-PREは最先端の性能を低コストで達成できることが示された。
論文 参考訳(メタデータ) (2024-10-16T06:06:06Z) - An Automatic Question Usability Evaluation Toolkit [1.2499537119440245]
多重選択質問(MCQ)を評価するには、労働集約的な人的評価か、可読性を優先する自動化方法のいずれかが必要となる。
MCQの総合的かつ自動化された品質評価のために,IWFルーブリックを利用したオープンソースツールであるSAQUETを紹介する。
94%以上の精度で,既存の評価手法の限界を強調し,教育評価の質向上の可能性を示した。
論文 参考訳(メタデータ) (2024-05-30T23:04:53Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z) - The Meta-Evaluation Problem in Explainable AI: Identifying Reliable
Estimators with MetaQuantus [10.135749005469686]
説明可能なAI(XAI)分野における未解決課題の1つは、説明方法の品質を最も確実に見積もる方法を決定することである。
我々は、XAIの異なる品質推定器のメタ評価を通じてこの問題に対処する。
我々の新しいフレームワークMetaQuantusは、品質推定器の2つの相補的な性能特性を解析する。
論文 参考訳(メタデータ) (2023-02-14T18:59:02Z) - Benchmarking Answer Verification Methods for Question Answering-Based
Summarization Evaluation Metrics [74.28810048824519]
質問応答に基づく要約評価メトリクスは、QAモデルの予測が正しいかどうかを自動的に判断する必要がある。
筆者らは,現在QAベースのメトリクスで使用されている語彙的回答検証手法と,より洗練された2つのテキスト比較手法をベンチマークした。
論文 参考訳(メタデータ) (2022-04-21T15:43:45Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。