論文の概要: GRADE: Generalizable Reasoning-Aware Dialogue Evaluation for AI Tutors
- arxiv url: http://arxiv.org/abs/2605.27866v2
- Date: Thu, 04 Jun 2026 01:23:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-06 06:55:34.575688
- Title: GRADE: Generalizable Reasoning-Aware Dialogue Evaluation for AI Tutors
- Title(参考訳): GRADE:AIチュータのための汎用推論対応対話評価
- Authors: Parth Bhalerao, Jeromy Chang, David Chou, Oana Ignat,
- Abstract要約: GRADEは、学生-教師対話における教育能力評価のためのオープンソースモデルの体系的研究である。
ゼロショット推論, LoRAファインチューニング, 合成拡張, CoT+Reasoning, シングルタスク対マルチタスクの定式化など, 5つの言語モデルにわたる120の構成を評価した。
- 参考スコア(独自算出の注目度): 5.831342304669597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating AI tutor responses requires more than factual correctness: tutors must identify mistakes, locate errors, provide guidance, and offer actionable next steps. We present GRADE, a systematic study of open-source models for pedagogical ability assessment in student-tutor dialogues. Building on the BEA 2025 TutorMind setting, we evaluate 120 configurations across five language models, zero-shot inference, LoRA fine-tuning, synthetic augmentation, CoT+Reasoning, and single-task versus multitask formulations. Gemma3-12B performs best for single-task evaluation, while Gemma3-27B in 8-bit precision is more reliable for multitask prediction. We find that augmentation helps models that struggle with the original data, verification adds limited gains despite higher cost, and CoT+Reasoning is more useful for synthetic data generation than direct classification. We further show that LoRA fine-tuning on structured classification objectives interferes with instruction-following behavior under thinking mode, redirecting generation away from the required evaluation format. Carbon analysis shows that model choice and reasoning mode substantially affect emissions. Overall, GRADE shows that carefully selected open-source LoRA pipelines can match or surpass proprietary and ensemble-based systems on key pedagogical dimensions, with code and data available at https://github.com/pvbgeek/GRADE.
- Abstract(参考訳): 教師はミスを特定し、エラーを特定し、ガイダンスを提供し、次に実行可能なステップを提供する必要がある。
本稿では,学生-教師対話における教育能力評価のためのオープンソースモデルの体系的研究であるGRADEについて述べる。
BEA 2025 TutorMindの設定に基づいて、ゼロショット推論、LoRAファインチューニング、合成拡張、CoT+Reasoning、シングルタスク対マルチタスクの定式化など、5つの言語モデルにわたる120の構成を評価します。
Gemma3-12Bはシングルタスク評価に最適であり、8ビット精度のGemma3-27Bはマルチタスク予測に信頼性が高い。
拡張は、原データに苦しむモデルに役立つこと、検証はコストが高いにもかかわらず限られた利得を付加すること、そしてCoT+Reasoningは直接分類よりも合成データ生成に有用である。
さらに、構造化された分類対象に対するLoRAの微調整が、思考モード下での指示追従動作を妨害し、必要な評価フォーマットから生成をリダイレクトすることを示す。
炭素分析は、モデル選択と推論モードがエミッションに大きく影響していることを示している。
GRADEは、慎重に選択されたオープンソースのLoRAパイプラインが、主要な教育的次元において、プロプライエタリでアンサンブルベースのシステムと一致するか、あるいは超える可能性があることを示している。
関連論文リスト
- SCRIBE: Structured Chain Reasoning for Interactive Behaviour Explanations using Tool Calling [9.113268651219187]
SCRIBEは、フィードバックレポートに関する学生の質問に対する有効な応答を生成するために、マルチホップでツール強化された推論のためのフレームワークである。
GPT-Judgeによる評価と108人の学生によるユーザスタディは、8B-SCRIBEモデルがより大きなモデルに匹敵する品質または優れた品質を達成していることを示している。
論文 参考訳(メタデータ) (2025-10-30T10:17:05Z) - One Model to Critique Them All: Rewarding Agentic Tool-Use via Efficient Reasoning [54.580646706013965]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
一般的なツール使用シナリオに適した軽量な生成型RMのファミリーであるToolRMを紹介する。
これらのモデルを構築するために,ルールベースのスコアリングと多次元サンプリングを用いたペアワイズ選好データを構築するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-30T06:08:27Z) - TutorBench: A Benchmark To Assess Tutoring Capabilities Of Large Language Models [10.963195858672627]
TutorBenchは、大規模言語モデル(LLM)のコアチューリングスキルを厳格に評価するために設計されたデータセットと評価ベンチマークである。
サンプルは、(i)学生の混乱に合わせた適応的な説明を生成すること、(ii)学生の作業に対して実行可能なフィードバックを提供すること、(iii)効果的なヒント生成を通じて活発な学習を促進すること、の3つの一般的な学習課題から抽出される。
我々はTutorBench上で16個のフロンティアLLMを評価し,その性能と挙動を詳細に解析した。
論文 参考訳(メタデータ) (2025-10-03T01:41:09Z) - MathTutorBench: A Benchmark for Measuring Open-ended Pedagogical Capabilities of LLM Tutors [82.91830877219822]
我々は、総合的なチューリングモデル評価のためのオープンソースのベンチマークであるMathTutorBenchを紹介する。
MathTutorBenchには、ダイアログベースの教育における科学の研究によって定義された、家庭教師の能力をカバーするデータセットとメトリクスが含まれている。
閉鎖的およびオープンウェイトなモデルの幅広いセットを評価し、問題解決能力によって示される課題の専門知識が、すぐには良い教育に変換されないことを発見した。
論文 参考訳(メタデータ) (2025-02-26T08:43:47Z) - Language Models are Few-Shot Graders [0.12289361708127876]
我々は最先端のLCMを利用したASAGパイプラインを提案する。
GPT-4、GPT-4o、o1-previewの3つのOpenAIモデルのグレーディング性能を比較した。
以上の結果より,RAGによる選択はランダム選択よりも優れており,グレードドドサンプルを提供することでグレーディング精度が向上することが示唆された。
論文 参考訳(メタデータ) (2025-02-18T23:38:21Z) - ARES: Alternating Reinforcement Learning and Supervised Fine-Tuning for Enhanced Multi-Modal Chain-of-Thought Reasoning Through Diverse AI Feedback [13.154512864498912]
強化学習(RL)と教師付きファインチューニング(SFT)を交互に行う2段階アルゴリズムARESを提案する。
第一に、我々は教師に、各文が問題の解決にどれだけ貢献するかを、CoT(Chain-of-Thought)で得点するように要求する。
次に,教師にRL後の誤った推論の修正を依頼する。補正フィードバックにより,SFTによるRL微調整モデルを安定化する。
論文 参考訳(メタデータ) (2024-06-25T07:20:11Z) - How Far Can Camels Go? Exploring the State of Instruction Tuning on Open
Resources [117.6496550359768]
この研究は、オープンな命令追従データセットにおける命令チューニング言語モデルの最近の進歩を探求する。
我々は、12の命令データセットに基づいて訓練された6.7Bから65Bのパラメータを含む、命令調整されたモデルの大規模なセットを提供する。
それらの事実的知識、推論、多言語性、コーディング、そしてその後に続くオープン・エンド・インストラクションに基づいて評価する。
論文 参考訳(メタデータ) (2023-06-07T19:59:23Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。