論文の概要: From Untamed Black Box to Interpretable Pedagogical Orchestration: The Ensemble of Specialized LLMs Architecture for Adaptive Tutoring
- arxiv url: http://arxiv.org/abs/2603.23990v1
- Date: Wed, 25 Mar 2026 06:38:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.166361
- Title: From Untamed Black Box to Interpretable Pedagogical Orchestration: The Ensemble of Specialized LLMs Architecture for Adaptive Tutoring
- Title(参考訳): 未使用のブラックボックスから解釈可能なペダゴジカルオーケストレーション:適応的チュータリングのための特殊LLMアーキテクチャの組み立て
- Authors: Nizam Kadir,
- Abstract要約: 教育対話で使用されるモノリシック大規模言語モデル(LLM)は、教育的決定が暗黙的で監査が難しい「ブラックボックス」として振る舞うことが多い。
本稿では,意思決定と発話を分離する特殊化LLMS(ES-LLMS)アーキテクチャについて紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monolithic Large Language Models (LLMs) used in educational dialogue often behave as "black boxes," where pedagogical decisions are implicit and difficult to audit, frequently violating instructional constraints by providing answers too early. We introduce the Ensemble of Specialized LLMS (ES-LLMS) architecture that separates decision-making from wording. Pedagogical actions are selected by a deterministic rules-based orchestrator coordinating specialized agents covering tutoring, assessment, feedback, scaffolding, motivation and ethics-guided by an interpretable Bayesian Knowledge Tracing (BKT) student model. An LLM renderer surface-realizes the chosen action in natural language. This design emphasizes reliability and controllability: constraints such as "attempt-before-hint" and hint caps are enforced as explicit rules, and the system logs per-turn agent traces and constraint checks. Validation of pedagogical quality via human expert reviewers (N=6) and a multi-LLM-as-Judge panel (six state-of-the-art models) showed that ES-LLMs were preferred in 91.7% and 79.2% of cases, respectively. The architecture significantly outperformed monolithic baselines across all seven dimensions, particularly in Scaffolding & Guidance, and Trust & Explainability. Furthermore, a Monte Carlo simulation (N=2,400) exposed a "Mastery Gain Paradox," where monolithic tutors inflated short-term performance through over-assistance. In contrast, ES-LLMs achieved 100% adherence to pedagogical constraints (e.g., attempt-before-hint) and a 3.3x increase in hint efficiency. Operationally, ES-LLMs reduced costs by 54% and latency by 22% by utilizing stateless prompts. We conclude that structural decoupling is essential for transforming stochastic models into trustworthy, verifiable and resource-efficient pedagogical agents.
- Abstract(参考訳): 教育対話で使用されるモノリシック大規模言語モデル(LLM)は、しばしば「ブラックボックス」として振る舞う。
本稿では,意思決定と発話を分離する特殊化LLMS(ES-LLMS)アーキテクチャについて紹介する。
教育的行動は、教師、評価、フィードバック、足場、モチベーション、倫理的指導を解釈可能なベイズ知識トレース(BKT)の学生モデルでカバーする決定論的ルールに基づくオーケストラによって選択される。
LLMレンダラは、自然言語で選択されたアクションを表面的に実現する。
この設計は信頼性と制御性を強調しており、"attempt-before-hint"やヒントキャップなどの制約は明示的なルールとして強制され、システムログはターン毎のエージェントトレースと制約チェックである。
人の専門家レビュアー (N=6) とマルチLLM-as-Judgeパネル (6つの最先端技術モデル) による教育的品質の検証では、ES-LLMがそれぞれ91.7%、79.2%のケースで好まれていた。
アーキテクチャは、特にScaffolding & GuidanceとTrust & Explainabilityの7つの次元で、モノリシックなベースラインを大幅に上回った。
さらにモンテカルロシミュレーション (N=2,400) では「マスターゲインパラドックス」が露呈し、モノリシックチューターはオーバー・アシスタンスを通じて短期的なパフォーマンスを膨らませた。
対照的に、ES-LLMは、ペタゴジカルな制約(例えば、試行前隠れ)に100%準拠し、ヒント効率は3.3倍向上した。
運用上、ES-LLMはステートレスプロンプトを利用することでコストを54%削減し、レイテンシを22%削減した。
構造的疎結合は確率的モデルを信頼でき、検証可能で、資源効率の良い教育エージェントに変換するのに不可欠である、と結論付けている。
関連論文リスト
- Problems With Large Language Models for Learner Modelling: Why LLMs Alone Fall Short for Responsible Tutoring in K--12 Education [4.658972861389497]
K--12教育における大規模言語モデル(LLM)ベースのチューターの急速な増加は、生成モデルが適応的指導のために従来の学習者モデルを置き換えることができるという誤解を引き起こしている。
本研究は,LLMに基づく教師の限界に関する証拠を合成し,学習者の時間とともに進化する知識を評価するための正確性,信頼性,時間的コヒーレンスという1つの重要な問題を実証的に研究する。
論文 参考訳(メタデータ) (2025-12-28T18:26:22Z) - Structured Uncertainty guided Clarification for LLM Agents [126.26213027785813]
LLMエージェントは、ツールコール機能を備えた大きな言語モデルを拡張するが、曖昧なユーザ命令は、しばしば誤った呼び出しやタスクの失敗につながる。
本稿では,ツールコールパラメータに対する構造的不確かさの定式化,完全情報の期待値(EVPI)を目標としたPOMDPのモデル化,冗長性防止のためのアスペクトベースコストモデルを提案する。
我々のSAGE-Agentは、この構造化された不確実性を活用し、より優れた効率を達成するために、曖昧なタスクのカバレッジを7~39%増加させ、明確な質問を1.5~2.7$times$に減らした。
論文 参考訳(メタデータ) (2025-11-11T21:50:44Z) - From <Answer> to <Think>: Multidimensional Supervision of Reasoning Process for LLM Optimization [62.07990937720985]
DRM(Dimension-level Reward Model)は、大規模言語モデルのための新しい監視フレームワークである。
DRMは3つの基本的、相補的、解釈可能な次元に沿って推論プロセスの品質を評価する。
実験の結果、DRMは効果的な監視信号を提供し、LCMの最適化を誘導し、推論能力を向上することが示された。
論文 参考訳(メタデータ) (2025-10-13T14:29:15Z) - TutorBench: A Benchmark To Assess Tutoring Capabilities Of Large Language Models [10.963195858672627]
TutorBenchは、大規模言語モデル(LLM)のコアチューリングスキルを厳格に評価するために設計されたデータセットと評価ベンチマークである。
サンプルは、(i)学生の混乱に合わせた適応的な説明を生成すること、(ii)学生の作業に対して実行可能なフィードバックを提供すること、(iii)効果的なヒント生成を通じて活発な学習を促進すること、の3つの一般的な学習課題から抽出される。
我々はTutorBench上で16個のフロンティアLLMを評価し,その性能と挙動を詳細に解析した。
論文 参考訳(メタデータ) (2025-10-03T01:41:09Z) - From Problem-Solving to Teaching Problem-Solving: Aligning LLMs with Pedagogy using Reinforcement Learning [82.50157695987558]
大規模言語モデル(LLM)は教育を変換することができるが、直接質問応答のための最適化はしばしば効果的な教育を損なう。
オンライン強化学習(RL)に基づくアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T15:00:07Z) - Can Large Language Models Match Tutoring System Adaptivity? A Benchmarking Study [0.0]
大規模言語モデル(LLM)は動的命令補助として約束を守る。
しかし、LLMが知的チューリングシステム(ITS)の適応性を再現できるかどうかは不明である。
論文 参考訳(メタデータ) (2025-04-07T23:57:32Z) - The Inherent Limits of Pretrained LLMs: The Unexpected Convergence of Instruction Tuning and In-Context Learning Capabilities [51.594836904623534]
本研究は,インコンテキストの例を用いて誘導されるベースモデルと,命令調整モデルが根本的に異なる機能を持つかどうかを考察する。
命令調整モデルの性能は,基本モデルのコンテキスト内性能と大きく相関していることを示す。
具体的には、この理解を命令付きモデルに拡張し、事前学習データも同様に、解決可能なタスクの制限境界を設定することを示唆する。
論文 参考訳(メタデータ) (2025-01-15T10:57:55Z) - AutoTutor meets Large Language Models: A Language Model Tutor with Rich Pedagogy and Guardrails [43.19453208130667]
大規模言語モデル(LLM)は、自動質問生成からエッセイ評価まで、いくつかのユースケースを教育で発見した。
本稿では,Large Language Models (LLMs) を用いて知的チューリングシステムを構築する可能性について検討する。
MWPTutor は LLM を用いて事前定義された有限状態トランスデューサの状態空間を補う。
論文 参考訳(メタデータ) (2024-02-14T14:53:56Z) - From Mimicking to Integrating: Knowledge Integration for Pre-Trained
Language Models [55.137869702763375]
本稿では,新しいPLM再利用パラダイムであるKnowledge Integration(KI)について検討する。
KIは,異なる分類問題に特化している教師-PLMの知識を,多種多様な学生モデルにマージすることを目的としている。
次に,モデル不確かさを意識した知識統合(MUKI)フレームワークを設計し,学生の黄金の監督を回復する。
論文 参考訳(メタデータ) (2022-10-11T07:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。