論文の概要: From NLG Evaluation to Modern Student Assessment in the Era of ChatGPT: The Great Misalignment Problem and Pedagogical Multi-Factor Assessment (P-MFA)
- arxiv url: http://arxiv.org/abs/2512.15183v1
- Date: Wed, 17 Dec 2025 08:32:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.901975
- Title: From NLG Evaluation to Modern Student Assessment in the Era of ChatGPT: The Great Misalignment Problem and Pedagogical Multi-Factor Assessment (P-MFA)
- Title(参考訳): NLG評価からChatGPT時代の近代的学生評価へ:偉大なミスアライメント問題と教育的マルチファクターアセスメント(P-MFA)
- Authors: Mika Hämäläinen, Kimmo Leiviskä,
- Abstract要約: 両ドメインが大きなミスアライメント問題に直面していると我々は主張する。
生徒がChatGPTのようなツールを使って高度なアウトプットを制作するにつれ、従来の評価手法は妥当性を失っている。
そこで本稿では,Pedagogical Multi-Factor Assessment (P-MFA)モデルを提案する。
- 参考スコア(独自算出の注目度): 0.18907108368038214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper explores the growing epistemic parallel between NLG evaluation and grading of students in a Finnish University. We argue that both domains are experiencing a Great Misalignment Problem. As students increasingly use tools like ChatGPT to produce sophisticated outputs, traditional assessment methods that focus on final products rather than learning processes have lost their validity. To address this, we introduce the Pedagogical Multi-Factor Assessment (P-MFA) model, a process-based, multi-evidence framework inspired by the logic of multi-factor authentication.
- Abstract(参考訳): フィンランド大学におけるNLG評価と大学院生の成績の相違について検討する。
両ドメインが大きなミスアライメント問題に直面していると我々は主張する。
生徒がChatGPTのようなツールを使って高度なアウトプットを制作するにつれ、学習プロセスではなく最終製品にフォーカスする従来のアセスメント手法は、その妥当性を失っている。
そこで本稿では,Pedagogical Multi-Factor Assessment (P-MFA)モデルを提案する。
関連論文リスト
- LLM-Driven Rubric-Based Assessment of Algebraic Competence in Multi-Stage Block Coding Tasks with Design and Field Evaluation [0.0]
本研究では,大規模言語モデル(LLM)を用いたルーブリックに基づく評価フレームワークの提案と評価を行う。
数学教育の専門家によって設計された問題集合は、各問題セグメントを予め定義された5つのルーリック次元に整列させる。
この研究は学習者の自己評価と専門家の評価を統合し、システムのアウトプットをベンチマークした。
論文 参考訳(メタデータ) (2025-10-04T01:00:33Z) - PEMUTA: Pedagogically-Enriched Multi-Granular Undergraduate Thesis Assessment [7.912100274675651]
UGTE(Undergraduatethesis)は、学生の大学時代における累積的な学術的発展を評価するのに欠かせない役割を担っている。
大規模言語モデル(LLM)は先進的な教育知能を持つが、通常は1つの評価スコアしか持たない総合的な評価に重点を置いている。
我々は,多粒性UGTE評価のためのLLMからドメイン固有知識を活性化する,教育に富んだフレームワークPEMUTAのパイオニアである。
論文 参考訳(メタデータ) (2025-07-25T06:47:26Z) - Partnering with AI: A Pedagogical Feedback System for LLM Integration into Programming Education [21.37197118335639]
本稿では,大規模言語モデル(LLM)によるフィードバック生成のための新しいフレームワークを提案する。
本研究は, 教員が枠組みに整合すると, LLMが学生を効果的に支援できると考えていることを示唆する。
しかし、動的な教室環境にフィードバックを適応できないなど、いくつかの制限があった。
論文 参考訳(メタデータ) (2025-07-01T03:48:48Z) - Peer Review as A Multi-Turn and Long-Context Dialogue with Role-Based Interactions [62.0123588983514]
大規模言語モデル(LLM)は様々な分野にまたがる幅広い応用を実証してきた。
我々は、ピアレビュープロセスを多ターン長文対話として再構築し、著者、レビュアー、意思決定者に対して異なる役割を担っている。
複数の情報源から収集された92,017件のレビューを含む26,841件の論文を含む包括的データセットを構築した。
論文 参考訳(メタデータ) (2024-06-09T08:24:17Z) - Leveraging Large Language Models for NLG Evaluation: Advances and Challenges [57.88520765782177]
大規模言語モデル(LLM)は、コヒーレンス、クリエイティビティ、コンテキスト関連など、生成されたコンテンツ品質を評価するための新たな道を開いた。
既存のLCMに基づく評価指標を整理し、これらの手法を理解し比較するための構造化された枠組みを提供する。
本稿では, 偏見, 堅牢性, ドメイン固有性, 統一評価などの未解決課題を議論することによって, 研究者に洞察を提供し, より公平で高度なNLG評価手法を提唱することを目的とする。
論文 参考訳(メタデータ) (2024-01-13T15:59:09Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - MAF: Multi-Aspect Feedback for Improving Reasoning in Large Language
Models [64.70153487607172]
言語モデル(LM)は、様々な自然言語タスクにおいて印象的なパフォーマンスを示している。
自然言語の推論に関しては、いまだに幻覚、誤った中間推論ステップの生成、数学的誤りなどの課題に直面している。
近年の研究では、フィードバックによる自己改善によるLMの強化に焦点が当てられている。
本研究では,凍結したLMや外部ツールなど,複数のフィードバックモジュールを統合する反復的改善フレームワークであるMulti-Aspect Feedbackを提案する。
論文 参考訳(メタデータ) (2023-10-19T02:32:39Z) - Towards a Unified Multi-Dimensional Evaluator for Text Generation [101.47008809623202]
自然言語生成のための統一多次元評価器UniEvalを提案する。
我々はNLG評価をブール質問回答(QA)タスクとして再設定し、異なる質問でモデルを導くことで、複数の次元から評価するために1つの評価器を使うことができる。
3つの典型的なNLGタスクの実験では、UniEvalは既存のメトリクスよりも人間の判断と大きく相関している。
論文 参考訳(メタデータ) (2022-10-13T17:17:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。