論文の概要: LookAlike: Consistent Distractor Generation in Math MCQs
- arxiv url: http://arxiv.org/abs/2505.01903v2
- Date: Sat, 07 Jun 2025 18:24:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.049782
- Title: LookAlike: Consistent Distractor Generation in Math MCQs
- Title(参考訳): LookAlike: 数学MCQにおける一貫性のあるディフュータ生成
- Authors: Nisarg Parikh, Nigel Fernandez, Alexander Scarlatos, Simon Woodhead, Andrew Lan,
- Abstract要約: そこで我々はLookAlikeを提案する。LookAlikeは優先最適化によるエラー・ディトラクタの整合性を改善する手法である。
主なイノベーションは、(a)モデル不整合から合成選好ペアをマイニングすること、(b)教師付き微調整の交互化である。
LookAlike は LLM-as-a-judge 評価の下で、イントラクタ生成の精度51.6%、エラー生成の精度57.2% を達成する。
- 参考スコア(独自算出の注目度): 42.19039301965107
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly used to generate distractors for multiple-choice questions (MCQs), especially in domains like math education. However, existing approaches are limited in ensuring that the generated distractors are consistent with common student errors. We propose LookAlike, a method that improves error-distractor consistency via preference optimization. Our two main innovations are: (a) mining synthetic preference pairs from model inconsistencies, and (b) alternating supervised fine-tuning (SFT) with Direct Preference Optimization (DPO) to stabilize training. Unlike prior work that relies on heuristics or manually annotated preference data, LookAlike uses its own generation inconsistencies as dispreferred samples, thus enabling scalable and stable training. Evaluated on a real-world dataset of 1,400+ math MCQs, LookAlike achieves 51.6% accuracy in distractor generation and 57.2% in error generation under LLM-as-a-judge evaluation, outperforming an existing state-of-the-art method (45.6% / 47.7%). These improvements highlight the effectiveness of preference-based regularization and inconsistency mining for generating consistent math MCQ distractors at scale.
- Abstract(参考訳): 大規模言語モデル(LLMs)は、特に数学教育のような分野において、マルチチョイス質問(MCQs)の注意をそらすために使われることが多い。
しかし、既存のアプローチは、生成したイントラクタが一般的な学生エラーと一致していることを保証するために限られている。
そこで我々はLookAlikeを提案する。LookAlikeは優先最適化によるエラー・ディトラクタの整合性を改善する手法である。
主なイノベーションは次の2つです。
(a)モデル不整合から合成選好ペアをマイニングすること、
b) 教師付き微調整(SFT)と直接選好最適化(DPO)を交互に組み合わせて訓練を安定させる。
ヒューリスティックスや手動で注釈付けされた好みデータに依存する以前の作業とは異なり、LookAlikeは独自の世代不整合を推奨されないサンプルとして使用することにより、スケーラブルで安定したトレーニングを可能にする。
実世界の1,400以上の数学MCQのデータセットで評価され、LookAlikeはイントラクタ生成の精度51.6%、LLM-as-a-judge評価のエラー生成の57.2%を達成し、既存の最先端手法(45.6%/47.7%)を上回っている。
これらの改善は、一貫した数学MCQイントラクタを大規模に生成する上で、嗜好ベースの正規化と矛盾マイニングの有効性を強調している。
関連論文リスト
- Let the Fuzzy Rule Speak: Enhancing In-context Learning Debiasing with Interpretability [12.287692969438169]
大規模言語モデル(LLM)は、テキスト分類タスクにおいて、文脈内学習(ICL)を用いたバランスの取れたクラス精度に苦慮することが多い。
本稿では、クラス精度の不均衡問題を深く掘り下げ、あるクラスが不均等に高いICL確率を常に受けているため、それが生じることを確かめる。
本稿では,サンプルレベルのクラス確率補正手法であるFuRudを紹介する。
論文 参考訳(メタデータ) (2024-12-26T01:56:42Z) - CalibraEval: Calibrating Prediction Distribution to Mitigate Selection Bias in LLMs-as-Judges [21.580762639442913]
推論中に選択バイアスを緩和する新しいラベルフリー手法であるCalibraEvalを紹介する。
CalibraEvalは、バイアスのない予測分布に合わせて観測された予測分布を調整するための最適化タスクとしてデバイアスを再構成する。
本稿では,CalibraEvalが選択バイアスを効果的に軽減し,既存のデバイアス法と比較して性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-10-20T13:47:39Z) - Subtle Errors Matter: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは、事前定義された微妙なエラーをピボットトークンに注入する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models [102.72940700598055]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。
入力の摂動に頼らず、外部リソースの導入を避ける手法を開発した。
私たちのトレーニングアプローチでは、思考の連鎖の中で特定のトークンをランダムにマスクします。
論文 参考訳(メタデータ) (2024-03-04T16:21:54Z) - MIO : Mutual Information Optimization using Self-Supervised Binary Contrastive Learning [12.365801596593936]
我々は、事前学習タスクを二項分類問題としてモデル化し、暗黙的なコントラスト効果を誘導する。
既存の手法とは異なり、提案した損失関数は正対と負対の相互情報を最適化する。
提案手法は,ベンチマークデータセット上でのSOTA自己教師型コントラストフレームワークよりも優れている。
論文 参考訳(メタデータ) (2021-11-24T17:51:29Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。