Fugu-MT 論文翻訳(概要): Bridging the Novice-Expert Gap via Models of Decision-Making: A Case Study on Remediating Math Mistakes

論文の概要: Bridging the Novice-Expert Gap via Models of Decision-Making: A Case Study on Remediating Math Mistakes

arxiv url: http://arxiv.org/abs/2310.10648v3
Date: Sat, 6 Apr 2024 16:15:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-10 02:35:24.544621
Title: Bridging the Novice-Expert Gap via Models of Decision-Making: A Case Study on Remediating Math Mistakes
Title（参考訳）: 意思決定モデルによる初歩的なギャップのブリッジ化:数学ミスの即時化を事例として
Authors: Rose E. Wang, Qingyang Zhang, Carly Robinson, Susanna Loeb, Dorottya Demszky,
Abstract要約: 我々は、認知タスク分析を用いて、専門家の潜在思考プロセスを、修復のための意思決定モデルに変換する。これには、(A) 学生の誤り、(B) 修復戦略、(C) 反応を生成する前の意図を特定する専門家が含まれる。我々は,700件の実際の学習談話のデータセットを構築し,その判断に専門家が注釈を付けた。
参考スコア（独自算出の注目度）: 4.19968291791323
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Scaling high-quality tutoring remains a major challenge in education. Due to growing demand, many platforms employ novice tutors who, unlike experienced educators, struggle to address student mistakes and thus fail to seize prime learning opportunities. Our work explores the potential of large language models (LLMs) to close the novice-expert knowledge gap in remediating math mistakes. We contribute Bridge, a method that uses cognitive task analysis to translate an expert's latent thought process into a decision-making model for remediation. This involves an expert identifying (A) the student's error, (B) a remediation strategy, and (C) their intention before generating a response. We construct a dataset of 700 real tutoring conversations, annotated by experts with their decisions. We evaluate state-of-the-art LLMs on our dataset and find that the expert's decision-making model is critical for LLMs to close the gap: responses from GPT4 with expert decisions (e.g., "simplify the problem") are +76% more preferred than without. Additionally, context-sensitive decisions are critical to closing pedagogical gaps: random decisions decrease GPT4's response quality by -97% than expert decisions. Our work shows the potential of embedding expert thought processes in LLM generations to enhance their capability to bridge novice-expert knowledge gaps. Our dataset and code can be found at: \url{https://github.com/rosewang2008/bridge}.
Abstract（参考訳）: 質の高いチューリングをスケールすることは、教育における大きな課題である。需要の増大により、多くのプラットフォームは初心者の家庭教師を雇い、経験豊富な教育者とは異なり、学生の誤りに対処するのに苦労し、結果として初等学習の機会をつかむのに失敗する。本研究は,大規模言語モデル (LLM) の可能性を探究し,算数ミスの即時処理における初歩的知識ギャップを埋めるものである。認知的タスク分析を用いて、専門家の潜在思考プロセスを、修復のための意思決定モデルに変換する方法であるBridgeをコントリビュートする。これには、(A) 生徒の誤り、(B) 修復戦略、(C) 反応を生成する前の意図を特定する専門家が含まれる。我々は,700件の実際の学習談話のデータセットを構築し,その判断に専門家が注釈を付けた。我々は、データセット上で最先端のLCMを評価し、専門家の意思決定モデルがLSMにとってギャップを埋めるのに重要であることを発見した。ランダムな決定は、専門家による決定よりも、GPT4の応答品質を-97%削減します。我々の研究は、初心者と専門家の知識ギャップを埋める能力を高めるために、専門家の思考プロセスをLLM世代に組み込む可能性を示している。データセットとコードは以下の通りです。

関連論文リスト

Didactic to Constructive: Turning Expert Solutions into Learnable Reasoning [24.23048069764839]
本研究では,専門的解を詳細な分散的推論トレースに変換することによって,分散ギャップを橋渡しする2段階の方法である分散適応学習(DAIL)を提案する。 DAILは1000未満のエキスパートソリューションを利用してQwen2.5-InstructおよびQwen3モデルの10-25%のパス@kゲインを実現し、推論効率を2倍から4倍に改善し、ドメイン外の一般化を可能にする。
論文参考訳（メタデータ） (2026-02-02T18:03:43Z)
Large Language Models as Students Who Think Aloud: Overly Coherent, Verbose, and Confident [0.8564319625930894]
大規模言語モデル(LLM)は、AIベースの学習システムにますます組み込まれている。彼らは、初心者の推論とメタ認知的判断を忠実にモデル化できるだろうか? 学生のヒント使用,試行,問題文脈の問題解決ログを用いた化学チュータリング問題からの630のシンクアラウド発話を用いて,LSMを初心者として評価した。そこで本研究では,LLM生成推論と人間の学習者発話を,最小限で拡張された文脈的プロンプトで比較し,ステップレベルの学習者成功を予測するモデルの能力を評価する。
論文参考訳（メタデータ） (2026-02-01T04:46:38Z)
ClearFairy: Capturing Creative Workflows through Decision Structuring, In-Situ Questioning, and Rationale Inference [59.65947911667229]
本稿では,行動・人工物・自己説明の認知的意思決定ステップに推論を関連づけるCLEARフレームワークを提案する。 ClearFairyはUI設計のための思考支援AIアシスタントで、弱い説明を検知し、軽量で明確な質問をし、知識共有の負担を軽減するために、根拠の欠如を推測する。
論文参考訳（メタデータ） (2025-09-18T02:11:34Z)
Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)を評価するために最も広く使われているタスクの1つは、Multiple-Choice Question Answering (MCQA)である。本研究は,MCQA評価戦略の不整合を軽視し,不正確かつ誤ったモデル比較に繋がる可能性がある。
論文参考訳（メタデータ） (2025-03-19T08:45:03Z)
MathTutorBench: A Benchmark for Measuring Open-ended Pedagogical Capabilities of LLM Tutors [76.1634959528817]
我々は、総合的なチューリングモデル評価のためのオープンソースのベンチマークであるMathTutorBenchを紹介する。 MathTutorBenchには、ダイアログベースの教育における科学の研究によって定義された、家庭教師の能力をカバーするデータセットとメトリクスが含まれている。閉鎖的およびオープンウェイトなモデルの幅広いセットを評価し、問題解決能力によって示される課題の専門知識が、すぐには良い教育に変換されないことを発見した。
論文参考訳（メタデータ） (2025-02-26T08:43:47Z)
Subtle Errors Matter: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。 RISEは定義済みの微妙な誤りを正しい解の部分的なトークンに注入し、エラー軽減のためにハードペアを構築する。 RISEの有効性を検証する実験では、Qwen2-7B-Instructでは、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善された。
論文参考訳（メタデータ） (2024-10-09T07:43:38Z)
Learning from Committee: Reasoning Distillation from a Mixture of Teachers with Peer-Review [11.756344944226495]
ピアリビュー(FAIR)による新しいフォールト・アウェア蒸留法を提案する。本手法では, 教師から金の合理性を得る代わりに, 生徒の過ちを特定・説明するよう教師に求めている。
論文参考訳（メタデータ） (2024-10-04T17:59:41Z)
Recursive Introspection: Teaching Language Model Agents How to Self-Improve [30.086494067593268]
RISE: Recursive IntroSpEctionは,大規模言語モデルを微調整する手法である。実験の結果,RISEはLlama2,Llama3,Mistralの各モデルに対して,数学推論タスクのターン数を増やすことで自己改善を可能にすることがわかった。
論文参考訳（メタデータ） (2024-07-25T17:35:59Z)
Multi-Agent Imitation Learning: Value is Easy, Regret is Hard [52.31989962031179]
我々は,エージェント群を協調させようとする学習者の視点で,マルチエージェント模倣学習(MAIL)問題を研究する。 MAILの以前の作業のほとんどは、基本的には、デモのサポート内で専門家の振る舞いにマッチする問題を減らすものです。エージェントが戦略的でないという仮定の下で、学習者と専門家の間の価値ギャップをゼロにするのに十分であるが、戦略的エージェントによる逸脱を保証するものではない。
論文参考訳（メタデータ） (2024-06-06T16:18:20Z)
R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文参考訳（メタデータ） (2023-11-16T08:45:44Z)
Democratizing Reasoning Ability: Tailored Learning from Large Language Model [97.4921006089966]
そこで我々は,そのような推論能力をより小さなLMに蒸留する,適切な学習手法を提案する。対話型多ラウンド学習パラダイムを構築することにより,理科教員としてのLLMの可能性を活用する。より小さなLMの推論可能性を活用するために,学生が自作ミスから学習する動機付けを目的とした自己回帰学習を提案する。
論文参考訳（メタデータ） (2023-10-20T07:50:10Z)
A Conceptual Model for End-to-End Causal Discovery in Knowledge Tracing [8.049552839071918]
我々は,知識追跡における因果発見問題の解決に向けて,予備的な一歩を踏み出した。第3回NeurIPS 2022章「教育における学習経路の因果的洞察への挑戦」の項目の1つにその解決策が挙げられた。
論文参考訳（メタデータ） (2023-05-11T21:20:29Z)
Online Learning with Uncertain Feedback Graphs [12.805267089186533]
専門家間の関係をフィードバックグラフで把握し、学習者の意思決定を支援する。実際には、名目上のフィードバックグラフはしばしば不確実性を伴うため、専門家間の実際の関係を明らかにすることは不可能である。本研究は、潜在的な不確実性の諸事例を考察し、それらを扱うための新しいオンライン学習アルゴリズムを開発する。
論文参考訳（メタデータ） (2021-06-15T21:21:30Z)
Decision Rule Elicitation for Domain Adaptation [93.02675868486932]
ヒトインザループ機械学習は、専門家からラベルを引き出すために人工知能(AI)で広く使用されています。この作業では、専門家が意思決定を説明する決定ルールを作成できるようにします。決定規則の適用はアルゴリズムのドメイン適応を改善し、専門家の知識をAIモデルに広めるのに役立つことを示す。
論文参考訳（メタデータ） (2021-02-23T08:07:22Z)
Leveraging Expert Consistency to Improve Algorithmic Decision Support [62.61153549123407]
建設のギャップを狭めるために観測結果と組み合わせることができる情報源として,歴史専門家による意思決定の利用について検討する。本研究では,データ内の各ケースが1人の専門家によって評価された場合に,専門家の一貫性を間接的に推定する影響関数に基づく手法を提案する。本研究は, 児童福祉領域における臨床現場でのシミュレーションと実世界データを用いて, 提案手法が構成ギャップを狭めることに成功していることを示す。
論文参考訳（メタデータ） (2021-01-24T05:40:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。