論文の概要: Error as a Lens: Probing LLM Reasoning through Synthetic Misconception Generation
- arxiv url: http://arxiv.org/abs/2605.29007v1
- Date: Wed, 27 May 2026 19:04:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.331241
- Title: Error as a Lens: Probing LLM Reasoning through Synthetic Misconception Generation
- Title(参考訳): レンズとしての誤り:合成ミスコンセプション生成によるLCM推論
- Authors: Xinming Yang, Jun Li,
- Abstract要約: 改訂されたブルーム分類から適応した5クラス分類を対象とする誤りを生成する枠組みを提案する。
このフレームワークは、クラス階層化された合成エラーデータセットを構築するための再利用可能なレシピを提供する。
- 参考スコア(独自算出の注目度): 3.6825041714447457
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Personalized tutoring, teacher training, and education research need access to \emph{targeted} synthetic misconceptions, but privacy and IRB constraints make labelled corpora of real student errors scarce. LLMs could in principle generate synthetic errors at scale, but producing an arbitrary wrong answer is easy for a modern LLM while producing one that matches a specified cognitive failure mode is much harder. We present a framework that generates errors targeted to a five-class taxonomy adapted from the revised Bloom's taxonomy, evaluated on questions from the TheoremQA dataset. A Generation Agent (GA) drafts a candidate erroneous solution conditioned on a target class, and an Examination Agent (EA) judges whether the draft is incorrect and class-consistent. The framework yields a reusable recipe for building class-stratified synthetic error datasets where authentic student corpora are unavailable. As a secondary diagnostic, targeted error generation is substantially harder than free-form incorrect-answer generation, and answer-grounding contributes more than expanded examples or external textbook content.
- Abstract(参考訳): パーソナライズド・チューター、教員養成、教育研究は、合成誤解にアクセスできる必要があるが、プライバシとIRBの制約により、実際の学生エラーのラベル付きコーパスが不足している。
LLMは基本的に、大規模に合成エラーを生成することができるが、現代のLLMでは、任意の誤った回答を生成することは容易であり、特定の認知障害モードにマッチするものを生成することは、はるかに困難である。
TheoremQAデータセットからの質問に基づいて,改訂されたブルームの分類から適応した5クラス分類を対象とする誤りを生成する枠組みを提案する。
生成エージェント(GA)は、対象クラスに条件付けられた候補の誤解をドラフトし、試験エージェント(EA)は、ドラフトが正しくないか、かつ、クラス一貫性があるかを判断する。
このフレームワークは、真正な学生コーパスが利用できないクラス階層化された合成エラーデータセットを構築するための再利用可能なレシピを提供する。
二次診断として、ターゲットエラー生成は、フリーフォームの不正回答生成よりもかなり困難であり、回答グラウンド化は、拡張された例や外部の教科書コンテンツ以上に寄与する。
関連論文リスト
- Automated Grading of Handwritten Mathematics Using Vision-Capable LLMs [2.727845763576068]
視覚対応の大型言語モデル(LLM)は新しい機会を提供する。
インストラクター定義ルーブリックを用いた手書き数学書記作業のためのLLM-based graderの実証評価を行った。
論文 参考訳(メタデータ) (2026-05-18T19:06:15Z) - From Subsumption to Satisfiability: LLM-Assisted Active Learning for OWL Ontologies [1.1351175212666613]
アクティブな学習では、メンバシップクエリ(MQ)によって、学習者が教師に質問をすることができる。
我々は、各候補公理を対応する対概念に再構成し、制御された自然言語で言語化する。
対概念のインスタンスを近似する実世界の例を提供する第3のコンポーネントとして、Large Language Models (LLMs)を紹介します。
論文 参考訳(メタデータ) (2026-04-17T20:05:30Z) - LEMMA: Learning from Errors for MatheMatical Advancement in LLMs [33.571479131705075]
我々は,大規模言語モデルの推論能力を高めるために,数学的発展のための誤りからの学習(LEMMA)を導入する。
LEMMAは、誤ったステップの間違った解と、微調整のための正しい解への反射接続からなるデータを構成する。
実験結果から, LEMMAは他の強力なベースラインよりも高い性能向上が得られた。
論文 参考訳(メタデータ) (2025-03-21T17:59:10Z) - Teaching Your Models to Understand Code via Focal Preference Alignment [70.71693365502212]
既存の手法では、テストケースの成功率に基づいてn個の候補解が評価される。
このアプローチは、特定のエラーを特定するのではなく、失敗するコードブロック全体を整列するので、意味のあるエラーと訂正の関係を捉えるのに必要な粒度が欠けている。
我々は、人間の反復デバッグを模倣してコードLLMを洗練させる新しい優先順位調整フレームワークであるTarget-DPOを提案する。
論文 参考訳(メタデータ) (2025-03-04T16:56:34Z) - Synthetic Students: A Comparative Study of Bug Distribution Between Large Language Models and Computing Students [4.949067768845775]
大規模言語モデル(LLM)は、合成教室データを生成するエキサイティングな機会を提供する。
本研究では,LLMが生成するバグの分布を,コンピュータ学生が生成するバグとは対照的に検討する。
論文 参考訳(メタデータ) (2024-10-11T18:51:58Z) - Subtle Errors in Reasoning: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは、事前定義された微妙なエラーをピボットトークンに注入する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。