論文の概要: Towards Reward Modeling for AI Tutors in Math Mistake Remediation
- arxiv url: http://arxiv.org/abs/2603.24375v1
- Date: Wed, 25 Mar 2026 14:56:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.342568
- Title: Towards Reward Modeling for AI Tutors in Math Mistake Remediation
- Title(参考訳): 数学のミステイク修復におけるAIチュータのリワードモデリングに向けて
- Authors: Kseniia Petukhova, Ekaterina Kochmar,
- Abstract要約: 重み付きサムランキングに基づいて訓練されたBradley-Terry選好モデルの開発とリリースを行う。
合成データのみを用いて、人間の嗜好テストにおいて最適なモデルが0.69対の精度に達する。
- 参考スコア(独自算出の注目度): 13.755739827287542
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating the pedagogical quality of AI tutors remains challenging: standard NLG metrics do not determine whether responses identify mistakes, scaffold reasoning, or avoid revealing the answers. For the task of mistake remediation, we derive a hierarchy of pedagogical aspects from human pairwise preferences on MRBench, and synthesize minimally contrastive response pairs that differ along key aspects (e.g., mistake identification and location, targetedness, scaffolding, actionability, clarity, and coherence). We develop and release Bradley-Terry preference models trained on weighted-sum rankings that we automatically create from MRBench, synthetic pairs, and data combinations. Using only synthetic data, our best model reaches 0.69 pairwise accuracy on a human preference test, and combining weighted-sum data with targeted synthetic groups improves accuracy to 0.74, outperforming larger general-purpose reward models while using only a 0.5B-parameter backbone.
- Abstract(参考訳): 標準のNLGメトリクスは、応答がミスを識別するか、足場推論か、答えの公表を避けるかどうかを判断しません。
ミス修復の課題として,MRBench上での人対的嗜好から教育的側面の階層を導出し,重要な側面(例えば,ミス識別と位置,標的性,足場,動作性,明確性,一貫性)に沿って異なる最小のコントラスト的な応答対を合成する。
我々は、MRBench、合成ペア、データの組み合わせから自動生成する重み付けサムランキングに基づいて訓練されたBradley-Terry選好モデルを開発し、リリースする。
合成データのみを用いて、人間の嗜好テストにおいて最適なモデルが0.69対精度に達し、重み付きサムデータを対象合成群と組み合わせることで精度が0.74に向上し、0.5Bパラメータのバックボーンのみを使用しながら、より大きな汎用報酬モデルよりも優れる。
関連論文リスト
- One Model to Critique Them All: Rewarding Agentic Tool-Use via Efficient Reasoning [54.580646706013965]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
一般的なツール使用シナリオに適した軽量な生成型RMのファミリーであるToolRMを紹介する。
これらのモデルを構築するために,ルールベースのスコアリングと多次元サンプリングを用いたペアワイズ選好データを構築するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-30T06:08:27Z) - LLM Routing with Dueling Feedback [49.67815163970033]
ユーザの満足度,モデルの専門性,推論コストのバランスを保ちながら,クエリ毎に最適なモデルを選択するという課題について検討する。
絶対的なスコアではなく、ペアの選好フィードバックから学習することで、ルーティングをコンテキストデュエルの帯域として定式化する。
分類的重み付けを用いた対照的な微調整を用いて,オフラインデータからモデル埋め込みを導出する表現学習手法であるカテゴリーキャリブレーション・ファインタニング(CCFT)を導入する。
論文 参考訳(メタデータ) (2025-10-01T12:52:25Z) - The Delta Learning Hypothesis: Preference Tuning on Weak Data can Yield Strong Gains [50.66245575710432]
個々のデータポイントからなるペアの嗜好データにより、個々のデータポイントの強度を超える利得が得られることを示す。
私たちの研究は、モデルが一般的に弱いと考えられるペアデータから驚くほどうまく学習できることを示しています。
論文 参考訳(メタデータ) (2025-07-08T17:14:44Z) - Advancing Tabular Stroke Modelling Through a Novel Hybrid Architecture and Feature-Selection Synergy [0.9999629695552196]
本研究は、ストロークを予測するように設計されたデータ駆動型、解釈可能な機械学習フレームワークを開発し、検証する。
定期的に収集された人口統計、生活習慣、臨床変数は4,981件の公的なコホートから得られた。
提案したモデルでは精度97.2%、F1スコア97.15%が達成され、先行する個人モデルと比較して大幅に向上した。
論文 参考訳(メタデータ) (2025-05-18T21:46:45Z) - Two Minds Better Than One: Collaborative Reward Modeling for LLM Alignment [35.80989342492335]
人間のフィードバックのノイズの多い好みは 報酬の一般化に繋がる
本研究の目的は,報酬モデルにおいて,騒音の嗜好が人間の嗜好とどのように異なるかを明らかにすることである。
我々は、堅牢な選好学習を実現するためのオンラインコラボレーション・リワード・モデリング・フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-15T10:58:20Z) - Grounding Synthetic Data Evaluations of Language Models in Unsupervised Document Corpora [9.871701356351542]
言語モデル(LM)は進化を続け、応答品質と一貫性を改善している。
モデル品質、応答適性、推論能力を評価するために、数多くの評価ベンチマークが作成されている。
本稿では,文書群を基盤としたファクトベース合成データモデル評価の自動化手法を提案する。
論文 参考訳(メタデータ) (2025-05-13T18:50:03Z) - MindGYM: What Matters in Question Synthesis for Thinking-Centric Fine-Tuning? [51.85759493254735]
MindGYMは、質問合成のための構造化されスケーラブルなフレームワークである。
モデル合成の振る舞いを形作るために、高レベルの推論目的を注入する。
より深い推論のために、QAシードに基づいてより複雑なマルチホップ質問を構成する。
論文 参考訳(メタデータ) (2025-03-12T16:03:03Z) - Rethinking Relation Extraction: Beyond Shortcuts to Generalization with a Debiased Benchmark [53.876493664396506]
ベンチマークは、機械学習アルゴリズムのパフォーマンスの評価、比較の促進、優れたソリューションの特定に不可欠である。
本稿では,関係抽出タスクにおけるエンティティバイアスの問題に対処する。
本稿では,エンティティの代替によって,エンティティ参照と関係型との擬似相関を破る不偏関係抽出ベンチマークDREBを提案する。
DREBの新たなベースラインを確立するために,データレベルとモデルトレーニングレベルを組み合わせたデバイアス手法であるMixDebiasを導入する。
論文 参考訳(メタデータ) (2025-01-02T17:01:06Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Improving Question Answering Model Robustness with Synthetic Adversarial
Data Generation [41.9785159975426]
最先端の質問応答モデルは、様々な敵の攻撃を受けやすいままであり、人間レベルの言語理解を得るには程遠い。
提案されている1つの方法は動的逆データ収集であり、人間のアノテータがループ内のモデルが失敗する例を作成しようとするものである。
本研究では,合成逆データ生成パイプラインを構成する複数の回答選択,質問生成,フィルタリング手法について検討する。
合成データと人為的データの両方で訓練されたモデルは、合成逆数データで訓練されていないモデルより優れ、対数上での最先端の結果を得る
論文 参考訳(メタデータ) (2021-04-18T02:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。