Fugu-MT 論文翻訳(概要): MIRROR: A Novel Approach for the Automated Evaluation of Open-Ended Question Generation

論文の概要: MIRROR: A Novel Approach for the Automated Evaluation of Open-Ended Question Generation

arxiv url: http://arxiv.org/abs/2410.12893v1
Date: Wed, 16 Oct 2024 12:24:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:36.555305
Title: MIRROR: A Novel Approach for the Automated Evaluation of Open-Ended Question Generation
Title（参考訳）: MIRROR:オープンエンド質問生成の自動評価のための新しいアプローチ
Authors: Aniket Deroy, Subhankar Maity, Sudeshna Sarkar,
Abstract要約: 自動質問生成システムによって生成される質問に対する評価プロセスを自動化する新しいシステムMIRRORを提案する。その結果,MIRRORと呼ばれるフィードバックに基づく手法を用いることで,人間の評価指標,すなわち妥当性,適切性,新規性,複雑性,文法性のスコアが向上した。
参考スコア（独自算出の注目度）: 0.4857223913212445
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automatic question generation is a critical task that involves evaluating question quality by considering factors such as engagement, pedagogical value, and the ability to stimulate critical thinking. These aspects require human-like understanding and judgment, which automated systems currently lack. However, human evaluations are costly and impractical for large-scale samples of generated questions. Therefore, we propose a novel system, MIRROR (Multi-LLM Iterative Review and Response for Optimized Rating), which leverages large language models (LLMs) to automate the evaluation process for questions generated by automated question generation systems. We experimented with several state-of-the-art LLMs, such as GPT-4, Gemini, and Llama2-70b. We observed that the scores of human evaluation metrics, namely relevance, appropriateness, novelty, complexity, and grammaticality, improved when using the feedback-based approach called MIRROR, tending to be closer to the human baseline scores. Furthermore, we observed that Pearson's correlation coefficient between GPT-4 and human experts improved when using our proposed feedback-based approach, MIRROR, compared to direct prompting for evaluation. Error analysis shows that our proposed approach, MIRROR, significantly helps to improve relevance and appropriateness.
Abstract（参考訳）: 自動質問生成は、関与、教育的価値、批判的思考を刺激する能力などの要因を考慮し、質問品質を評価することを伴う重要なタスクである。これらの側面は人間のような理解と判断を必要とする。しかし, 人的評価は, 大規模な質問の収集には費用がかかり, 現実的ではない。そこで我々は,大規模言語モデル(LLM)を活用し,自動質問生成システムによって生成される質問に対する評価プロセスを自動化するMIRROR(Multi-LLM Iterative Review and Response for Optimized Rating)を提案する。我々は, GPT-4, Gemini, Llama2-70b などの最先端 LLM 実験を行った。その結果,MIRRORと呼ばれるフィードバックに基づく手法を用いることで,評価指標,すなわち妥当性,適切性,新規性,複雑性,文法性が向上し,人間の基準値に近い傾向が見られた。さらに,提案手法であるMIRRORを用いることで,GPT-4とヒト専門家の相関係数が向上することが確認された。誤差解析により,提案手法であるMIRRORが妥当性と妥当性の向上に有効であることが示唆された。

関連論文リスト

The Great Nugget Recall: Automating Fact Extraction and RAG Evaluation with Large Language Models [53.12387628636912]
本稿では,人間のアノテーションに対して評価を行う自動評価フレームワークを提案する。この手法は2003年にTREC Question Answering (QA) Trackのために開発された。完全自動ナゲット評価から得られるスコアと人間に基づく変種とのランニングレベルでの強い一致を観察する。
論文参考訳（メタデータ） (2025-04-21T12:55:06Z)
STRIVE: A Think & Improve Approach with Iterative Refinement for Enhancing Question Quality Estimation [0.0]
本稿では,LLM(Large Language Models)を自動質問評価に用いるSTRIVEと呼ばれる新しい手法を提案する。提案手法は,提案した質問の強みと弱みに基づいて複数の評価を自動で生成することにより,質問品質を推定する。
論文参考訳（メタデータ） (2025-04-08T05:34:38Z)
UPME: An Unsupervised Peer Review Framework for Multimodal Large Language Model Evaluation [36.40760924116748]
VQA(Visual Question Answering)の課題に対処するためにMLLM(Multimodal Large Language Models)が登場した。既存の評価手法では、視覚画像のQ&Aペアを設計するために必要な人的負担がかなり大きいため、限界に直面している。本研究では,モデルが質問を自動的に生成し,他のモデルからの回答のピアレビュー評価を行うことのできる,教師なしピアレビューMLLM評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-19T07:15:41Z)
SedarEval: Automated Evaluation using Self-Adaptive Rubrics [4.97150240417381]
本稿では,自己適応型ルーブリックに基づく新しい評価パラダイムを提案する。 SedarEvalは、細心の注意を払って1,000の質問から成り、それぞれが独自の自己適応型ルーリックを持っている。我々は、人間の学級に取って代わるために、特殊評価器言語モデル(評価器LM)を訓練する。
論文参考訳（メタデータ） (2025-01-26T16:45:09Z)
HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。 HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文参考訳（メタデータ） (2024-12-20T03:26:47Z)
Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文参考訳（メタデータ） (2024-11-23T08:06:06Z)
An Automatic and Cost-Efficient Peer-Review Framework for Language Generation Evaluation [29.81362106367831]
既存の評価手法は、しばしば高いコスト、限られたテスト形式、人間の参照の必要性、体系的な評価バイアスに悩まされる。人間のアノテーションに依存する以前の研究とは対照的に、Auto-PREはそれら固有の特性に基づいて自動的に評価者を選択する。実験結果から,我々のAuto-PREは最先端の性能を低コストで達成できることが示された。
論文参考訳（メタデータ） (2024-10-16T06:06:06Z)
IQA-EVAL: Automatic Evaluation of Human-Model Interactive Question Answering [10.338962367542331]
本稿では,対話型質問応答評価を実現するための自動評価フレームワークIQA-EVALを提案する。また, LLM を用いた評価エージェント (LEA) を導入し, 人の振る舞いをシミュレートし, IQA モデルとの相互作用を生成する。本稿では,GPT-4をバックボーンモデルとした評価フレームワークが,IQAタスクにおける人的評価と高い相関性を実現することを示す。
論文参考訳（メタデータ） (2024-08-24T10:34:20Z)
Aligning Model Evaluations with Human Preferences: Mitigating Token Count Bias in Language Model Assessments [2.1370543868467275]
本稿では,大規模言語モデルと人的評価を協調させる手法について検討する。我々はこのバイアスを定量化するためにベイズ統計とt検定を用い、GPTScorerを調整するための再校正手順を開発した。以上の結果から,再校正したLCM評価器と,複数のユースケースにおけるヒト評価との整合性は有意に改善した。
論文参考訳（メタデータ） (2024-07-05T09:26:40Z)
C-PMI: Conditional Pointwise Mutual Information for Turn-level Dialogue Evaluation [68.59356746305255]
本稿では,システムとユーザ間のターンレベルインタラクションを測定するための,モデルに依存しない新しいアプローチを提案する。提案手法は,既存の評価システムと比較して,人間の判断との相関性を大幅に改善する。
論文参考訳（メタデータ） (2023-06-27T06:58:03Z)
Perspectives on Large Language Models for Relevance Judgment [56.935731584323996]
大型言語モデル(LLM)は、関連判断を支援することができると主張している。自動判定が検索システムの評価に確実に利用できるかどうかは不明である。
論文参考訳（メタデータ） (2023-04-13T13:08:38Z)
Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文参考訳（メタデータ） (2022-12-15T17:26:05Z)
QAScore -- An Unsupervised Unreferenced Metric for the Question Generation Evaluation [6.697751970080859]
質問生成(QG)は、選択された回答の集合で、ある項目に対する質問を構成するタスクを自動化することを目的としている。 QAScoreと呼ばれるQGシステムを評価するためのより良いメカニズムを提供する可能性を秘めている新しい基準フリー評価指標を提案する。
論文参考訳（メタデータ） (2022-10-09T19:00:39Z)
Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。 ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文参考訳（メタデータ） (2021-02-20T03:29:20Z)
Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文参考訳（メタデータ） (2020-06-11T09:12:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。