論文の概要: The Tutoring Effectiveness Index: Predicting LLM Math Tutor Quality from Four Conversation Signals
- arxiv url: http://arxiv.org/abs/2605.30666v1
- Date: Thu, 28 May 2026 23:55:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.29386
- Title: The Tutoring Effectiveness Index: Predicting LLM Math Tutor Quality from Four Conversation Signals
- Title(参考訳): チュータ有効性指数:4つの会話信号からLLM数学チュータの品質を予測する
- Authors: Shim Jaechang, Unggi Lee,
- Abstract要約: 本研究では,Schoenfeld-Verifyキーワード比,数学ステップ密度,エンドクエストレート,ディープシンキング比プローブからのディープ推論ゲートを組み合わせた,学習自由な判定自由な4信号指標を提案する。
TEIで$N$候補から選択すると、事前不正シナリオの改善率は59.0%$から8.1.9%$まで上昇し、凍結したDeepSeek-R1-8Bベースで$N=8$となる。
- 参考スコア(独自算出の注目度): 0.12277343096128711
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Aligning large language models (LLMs) as math tutors typically demands costly reinforcement-learning (RL) training and external LLM judges. We ask whether a frozen model's internal reasoning signals can replace both. We propose the Tutoring Effectiveness Index (TEI), a training-free, judge-free four-signal index that combines a Schoenfeld-Verify keyword ratio, a math-step density, an ends-question rate, and a deep-reasoning gate from the Deep-Thinking Ratio (DTR) probe. Selecting from $N$ candidates with TEI (the TEI@$N$ rule) raises the improvement rate on pre-incorrect scenarios from $59.0\%$ to $81.9\%$ at $N{=}8$ on a frozen DeepSeek-R1-8B base, with no training and no external judge. We also measure the alignment tax of pedagogical GRPO. Thinking length drops from $1{,}764$ to $119$ words per turn ($-93\%$), Content-Knowledge and Pedagogical-Knowledge accuracy fall by $-71\%$ and $-80\%$ relative, and the student's $Δ$ Solve Rate crosses from $+0.180$ to $-0.012$. To anchor the behavioural reading, we reproduce an 82-code educational codebook on $119{,}009$ tutor sentences with a one-shot structural classifier. Together, these results offer a cost-effective recipe for building math-tutoring LLMs without RL training or external judges.
- Abstract(参考訳): 数学家庭教師としての大型言語モデル(LLM)の調整は通常、RLトレーニングと外部LLM審査を必要とする。
凍結モデルの内部推論信号が両方を置き換えることができるかどうかを問う。
本研究では,Schoenfeld-Verifyキーワード比,数学ステップ密度,終点探索率,深絞り比(Deep-Thinking Ratio, DTR)プローブからの深絞りゲートを組み合わせた,トレーニングフリーで判断自由な4信号指数であるTutoring Effectiveness Index(TEI)を提案する。
TEI(TEI@$N$ rule)で$N$候補から選択すると、事前不正シナリオの改善率は59.0\%$から8.11.9\%$へ上昇し、凍結したDeepSeek-R1-8Bベースで$N{=}8$となる。
また,教育用GRPOのアライメント税を測定した。
1ターンあたりの${,}764$から$19$$$$(-93\%)、Content-KnowledgeとPedagogical-Knowledgeの精度は$-71\%$と$-80\%$で低下し、学生の$Δ$ソルブレートは+0.180$から$-0.012$になる。
行動読影を固定するために,119{,}009$のチューター文に82符号の教育用コードブックを1ショット構造分類器で再現する。
これらの結果は、RLのトレーニングや外部の審査員を使わずに、算数学習 LLM を構築するためのコスト効率のよいレシピを提供する。
関連論文リスト
- Knowing When to Ask: Segment-Level Credit Assignment for LLM Tool Use [0.0]
textbfCARL(textbfCompetence-textbfAware textbfReinforcement textbfL)を提案する。
モデル自身のロールアウトに対して、パラメトリックな知識がどこに十分で、外部の助けを必要とするかを学ぶために、評論家を訓練する。
AUC 0.93の7Bでのツール依存の質問とパラメトリックで解ける質問を分離する。
論文 参考訳(メタデータ) (2026-05-27T00:11:31Z) - Representation Without Reward: A JEPA Audit for LLM Fine-Tuning [1.2691047660244335]
JEPA(Joint-embedding predictive Architectures)は、モデルが観測された出力よりも遅延表現を予測できるように訓練された時に、より有用な抽象化を学ぶべきであることを提案している。
自己回帰型言語モデルの微調整には、この原理はより厳密な要件を必要とする。
我々は、Llama-3.2-1B-Instruct LoRA を用いて、自然言語からレジェックス生成におけるその要件を検証した。
論文 参考訳(メタデータ) (2026-05-14T20:27:32Z) - The Geometry of Forgetting: Temporal Knowledge Drift as an Independent Axis in LLM Representations [50.43168858368539]
大規模言語モデルは自信を持って時代遅れの回答を生成し、既存の方法では検出できない。
これは工学的な失敗ではなく構造的な失敗であり、時間的ドリフトは、幾何的に残留流の方向として、正確性と不確実性の両方に符号化される。
論文 参考訳(メタデータ) (2026-05-09T22:27:31Z) - Mitigating Distribution Sharpening in Math RLVR via Distribution-Aligned Hint Synthesis and Backward Hint Annealing [2.354398950453436]
検証可能な報酬(RLVR)による強化学習は、難解な数学問題に対する解のカバレッジを狭めながら、推論精度を低コストで向上させることができる。
既存のヒントベースのアプローチは、挑戦的な質問をトレーニング可能にするが、2つの問題が未解決のまま残されている。
論文 参考訳(メタデータ) (2026-04-09T03:08:41Z) - $\nabla$-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space [71.23672814629448]
$nabla$-Reasonerは、トークンログに対する差別化可能な最適化をデコードループに統合する反復生成フレームワークである。
$nabla$-Reasonerは、挑戦的な数学的推論ベンチマークで20%以上の精度の向上を実現している。
論文 参考訳(メタデータ) (2026-03-05T08:42:54Z) - Optimal Unconstrained Self-Distillation in Ridge Regression: Strict Improvements, Precise Asymptotics, and One-Shot Tuning [61.07540493350384]
自己蒸留(英: Self-distillation, SD)とは、教師自身の予測と地道の混合で学生を訓練する過程である。
任意の予測リスクに対して、各正規化レベルにおいて、最適に混合された学生がリッジ教師に改善されることが示される。
本稿では,グリッド探索やサンプル分割,再構成なしに$star$を推定する一貫したワンショットチューニング手法を提案する。
論文 参考訳(メタデータ) (2026-02-19T17:21:15Z) - Logical GANs: Adversarial Learning through Ehrenfeucht Fraisse Games [0.0]
GANは区別不能を約束する、とロジックは説明する。
textbfLOGAN (LOGical GANs)は、識別器をdeep-k$Ehrenfeucht--Fra"iss'e (EF) emphOpponentとしてキャストする
EFプローブシミュレータとMSOスタイルのグラフチェッカーである最小限のツールキットと、PyTorchによる実際の神経GANトレーニングを含む4つの実験を出荷しています。
論文 参考訳(メタデータ) (2025-10-26T20:34:00Z) - Can Large Language Models Play Games? A Case Study of A Self-Play
Approach [61.15761840203145]
LLM(Large Language Models)は、インターネットからの広範なデータを利用して、幅広い事前知識を格納する。
Monte-Carlo Tree Search (MCTS)は、信頼性の高い意思決定ソリューションを提供する検索アルゴリズムである。
この研究は、ターンベースのゼロサムゲームを効率的に解決するために、MCTSセルフプレイでLLMを活性化させる革新的なアプローチを導入している。
論文 参考訳(メタデータ) (2024-03-08T19:16:29Z) - Regret-Optimal Federated Transfer Learning for Kernel Regression with Applications in American Option Pricing [8.723136784230906]
本稿では、中央プランナーがデータセットにアクセス可能なフェデレーショントランスファー学習のための最適反復スキームを提案する。
我々の目標は、生成されたパラメータの累積偏差を$thetai(t)_t=0T$で最小化することである。
後悔と最適化のアルゴリズム内で対称性を活用することで, $mathcalO(Np2)$少なめの初等演算を伴って動作する,ほぼ後悔のいく$_optimalを開発する。
論文 参考訳(メタデータ) (2023-09-08T19:17:03Z) - Minimax-Optimal Multi-Agent RL in Zero-Sum Markov Games With a
Generative Model [50.38446482252857]
2人プレイのゼロサムマルコフゲームは多エージェント強化学習においておそらく最も基本的な設定である。
我々は,$$ widetildeObiggを用いて,$varepsilon$-approximate Markov NEポリシーを学習する学習アルゴリズムを開発した。
我々は、分散型量の役割を明確にするFTRLに対する洗練された後悔境界を導出する。
論文 参考訳(メタデータ) (2022-08-22T17:24:55Z) - Black-box Generalization of Machine Teaching [63.384268678926325]
我々は、より厳密なslack項を $left とするブラックボックス教育仮説 $hmathcalT$ を導入する。
この教示仮説の指導の下で、学習者はより厳密な一般化誤差とラベル複雑性境界に収束できることを示す。
論文 参考訳(メタデータ) (2022-06-30T11:41:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。