論文の概要: Hierarchical Pedagogical Oversight: A Multi-Agent Adversarial Framework for Reliable AI Tutoring
- arxiv url: http://arxiv.org/abs/2512.22496v1
- Date: Sat, 27 Dec 2025 06:42:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.086786
- Title: Hierarchical Pedagogical Oversight: A Multi-Agent Adversarial Framework for Reliable AI Tutoring
- Title(参考訳): Hierarchical Pedagogical Oversight: 信頼性の高いAIチューニングのためのマルチエージェント対応フレームワーク
- Authors: Saisab Sadhu, Ashim Dhor,
- Abstract要約: 本稿では,構造化された対人合成を教育評価に適用する枠組みである階層的教育監督(HPO)を紹介する。
表面的なコンセンサスに向かって漂う協調的なマルチエージェントシステムとは異なり、HPOは関心事の弁証的分離を強制する。
1,214の中学校数学対話のMRBenchデータセットを用いて,この枠組みを評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed as automated tutors to address educator shortages; however, they often fail at pedagogical reasoning, frequently validating incorrect student solutions (sycophancy) or providing overly direct answers that hinder learning. We introduce Hierarchical Pedagogical Oversight (HPO), a framework that adapts structured adversarial synthesis to educational assessment. Unlike cooperative multi-agent systems that often drift toward superficial consensus, HPO enforces a dialectical separation of concerns: specialist agents first distill dialogue context, which then grounds a moderated, five-act debate between opposing pedagogical critics. We evaluate this framework on the MRBench dataset of 1,214 middle-school mathematics dialogues. Our 8B-parameter model achieves a Macro F1 of 0.845, outperforming GPT-4o (0.812) by 3.3% while using 20 times fewer parameters. These results establish adversarial reasoning as a critical mechanism for deploying reliable, low-compute pedagogical oversight in resource-constrained environments.
- Abstract(参考訳): 大規模言語モデル(LLM)は、教育者不足に対処するために自動化チューターとしてますます多くデプロイされているが、教育学的な推論に失敗し、しばしば誤った学生ソリューション(薬学)を検証したり、学習を妨げる過度に直接的な回答を提供する。
本稿では,構造化された対人合成を教育評価に適用する枠組みである階層的教育監督(HPO)を紹介する。
表面的なコンセンサスに向かって漂う協調的なマルチエージェントシステムとは異なり、HPOは懸念を弁証的に分離する。
1,214の中学校数学対話のMRBenchデータセットを用いて,この枠組みを評価する。
我々の8Bパラメーターモデルは、GPT-4o(0.812)を20倍のパラメータで3.3%上回り、0.845のマクロF1を達成する。
これらの結果から,資源制約環境における信頼性,低スループットな教育的監視を実現するための重要なメカニズムとして,敵対的推論が確立された。
関連論文リスト
- Generalist++: A Meta-learning Framework for Mitigating Trade-off in Adversarial Training [105.74524789405514]
対人訓練(AT)は、現在、ニューラルネットワークに対する最も効果的な防御である。
本稿では,汎用化目標を複数のサブタスクに分割し,それぞれを専用のベースラーナに割り当てる。
トレーニングの後半では、これらのパラメータを補間して、知識のあるグローバルな学習者を形成する。
このフレームワークをGeneralistと呼び、異なるアプリケーションシナリオに適した3つのバリエーションを紹介します。
論文 参考訳(メタデータ) (2025-10-15T09:47:54Z) - Internalizing Self-Consistency in Language Models: Multi-Agent Consensus Alignment [22.305033366660187]
言語モデル(LM)は矛盾する推論子であり、しばしば同じプロンプトに対する矛盾した応答を生成する。
適切に整合した推論モデルの本質的な性質として自己整合性を定式化し、MACA(Multi-Agent Consensus Alignment)を導入する。
MACAは、エージェントが自分自身をより決定的かつ簡潔に教えることを可能にし、外部の監督なしにマルチエージェント設定におけるピアインサイトをより活用する。
論文 参考訳(メタデータ) (2025-09-18T17:27:28Z) - Beyond classical and contemporary models: a transformative AI framework for student dropout prediction in distance learning using RAG, Prompt engineering, and Cross-modal fusion [0.4369550829556578]
本稿では、ドロップアウト予測を再定義する変換型AIフレームワークを提案する。
フレームワークの精度は89%、F1スコアは0.88で、従来のモデルよりも7%、偽陰性は21%向上している。
論文 参考訳(メタデータ) (2025-07-04T21:41:43Z) - BD at BEA 2025 Shared Task: MPNet Ensembles for Pedagogical Mistake Identification and Localization in AI Tutor Responses [0.7475784495279183]
本稿では,AIを活用したチュータの教育能力評価に関するBEA 2025共有タスクについて紹介する。
我々のシステムは、BERTとXLNetの事前学習の利点を組み合わせたトランスフォーマーベースの言語モデルMPNet上に構築されている。
提案手法は両トラックにおいて, 一致マクロF1スコアが約0.7110, ミステイク同定が約0.5543, 公式テストセットが0.5543であった。
論文 参考訳(メタデータ) (2025-06-02T15:57:49Z) - Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective [98.29190911211053]
CoR(Chain-of-Reasoning)は、複数の推論パラダイムを統合する新しい統合フレームワークである。
CoRは異なる推論パラダイムによって複数の潜在的な答えを生成し、それらをコヒーレントな最終解へと合成する。
実験の結果,CoR-Math-7Bは現在のSOTAモデルより有意に優れていた。
論文 参考訳(メタデータ) (2025-01-19T16:53:26Z) - Enhanced Classroom Dialogue Sequences Analysis with a Hybrid AI Agent: Merging Expert Rule-Base with Large Language Models [7.439914834067705]
本研究では,対話シーケンスの包括的ルールベースと人工知能(AI)エージェントを開発する。
このエージェントは、自然言語の複雑さに適応しながら専門家の知識を適用し、教室の対話シーケンスの正確かつ柔軟な分類を可能にする。
論文 参考訳(メタデータ) (2024-11-13T08:13:41Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。