論文の概要: Subtle Errors Matter: Preference Learning via Error-injected Self-editing
- arxiv url: http://arxiv.org/abs/2410.06638v3
- Date: Mon, 03 Mar 2025 07:09:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-04 15:02:13.349002
- Title: Subtle Errors Matter: Preference Learning via Error-injected Self-editing
- Title(参考訳): サブトルエラーが重要: エラー注入型自己編集による選好学習
- Authors: Kaishuai Xu, Tiezheng Yu, Wenjun Hou, Yi Cheng, Chak Tou Leong, Liangyou Li, Xin Jiang, Lifeng Shang, Qun Liu, Wenjie Li,
- Abstract要約: eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは、事前定義された微妙なエラーをピボットトークンに注入する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
- 参考スコア(独自算出の注目度): 59.405145971637204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have exhibited strong mathematical reasoning prowess, tackling tasks ranging from basic arithmetic to advanced competition-level problems. However, frequently occurring subtle yet critical errors, such as miscalculations or incorrect substitutions, limit the LLMs' full potential. Existing studies to improve mathematical ability typically involve applying preference learning to step-wise solution pairs. Although these methods leverage samples of varying granularity to mitigate reasoning errors, they overlook critical subtle errors. In this work, we propose a novel preference learning framework called eRror-Injected Self-Editing (RISE), which injects predefined subtle errors into pivotal tokens in reasoning or computation steps to construct hard pairs for error mitigation. In detail, RISE uses the LLM itself to edit a small number of tokens in the solution, injecting designed subtle errors. Then, pairs composed of self-edited solutions and their corresponding correct ones, along with pairs of correct and incorrect solutions obtained through sampling, are used together for subtle error-aware DPO training. Compared with other preference learning methods, RISE further refines the training objective without requiring fine-grained sampling or preference annotation. Extensive experiments validate the effectiveness of RISE, with preference learning on Qwen2-7B-Instruct yielding notable improvements of 3.0% on GSM8K and 7.9% on MATH with only 4.5K training samples. Moreover, the effect of error mitigation extends from mathematical reasoning to logical reasoning and code generation.
- Abstract(参考訳): LLM(Large Language Models)は、基本的な算術から高度な競合レベルの問題まで、強力な数学的推論能力を示してきた。
しかし、誤計算や誤置換などの微妙で重要なエラーが頻繁に発生するため、LLMの潜在能力は制限される。
数学能力を改善するための既存の研究は、通常、ステップワイズな解対に好みの学習を適用することを含む。
これらの手法は、様々な粒度のサンプルを利用して推論誤差を軽減するが、重大な微妙な誤りを見落としている。
本研究では, eRror-Injected Self-Editing (RISE) と呼ばれる新しい選好学習フレームワークを提案する。
詳しくは、RISEはLSM自体を使用して、ソリューション内の少数のトークンを編集し、設計上の微妙なエラーを注入する。
次に、自己編集解とそれに対応する正解からなるペアと、サンプリングによって得られた正解と誤解のペアを合わせて、微妙な誤り認識DPOトレーニングを行う。
他の嗜好学習法と比較して、RISEは詳細なサンプリングや嗜好アノテーションを必要とせず、訓練対象をさらに洗練する。
Qwen2-7Bの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
さらに、誤り軽減の効果は、数学的推論から論理的推論やコード生成にまで及んでいる。
関連論文リスト
- ZeroED: Hybrid Zero-shot Error Detection through Large Language Model Reasoning [45.352592886478774]
我々は,新しいゼロショット誤り検出フレームワークZeroEDを提案する。
ZeroEDは、特徴表現、エラーラベリング、データ構築のトレーニング、検出器トレーニングの4つのステップで運用されている。
実験の結果、ZeroEDはF1スコアの最大30%改善と最大90%のトークンコスト削減で最先端の手法を大幅に上回ることがわかった。
論文 参考訳(メタデータ) (2025-04-06T10:28:41Z) - LEMMA: Learning from Errors for MatheMatical Advancement in LLMs [33.571479131705075]
我々は,大規模言語モデルの推論能力を高めるために,数学的発展のための誤りからの学習(LEMMA)を導入する。
LEMMAは、誤ったステップの間違った解と、微調整のための正しい解への反射接続からなるデータを構成する。
実験結果から, LEMMAは他の強力なベースラインよりも高い性能向上が得られた。
論文 参考訳(メタデータ) (2025-03-21T17:59:10Z) - IterPref: Focal Preference Learning for Code Generation via Iterative Debugging [28.020886216989872]
We propose IterPref, a new preference alignment framework for Code LLMs。
IterPrefは明示的にエラー領域を特定し、対応するトークンを調整されたDPOアルゴリズムで調整する。
IterPrefはコード生成において大幅なパフォーマンス向上を実現し、BigCodeBenchのような課題を改善する。
論文 参考訳(メタデータ) (2025-03-04T16:56:34Z) - Error Classification of Large Language Models on Math Word Problems: A Dynamically Adaptive Framework [64.83955753606443]
数学の単語問題は、大規模言語モデルの推論能力を評価するための重要なベンチマークとなる。
現在のエラー分類法は静的および事前定義されたカテゴリに依存している。
MWPES-300Kは,304,865個のエラーサンプルを含む包括的データセットである。
論文 参考訳(メタデータ) (2025-01-26T16:17:57Z) - Probably Approximately Precision and Recall Learning [62.912015491907994]
精度とリコールは機械学習の基本的な指標である。
一方的なフィードバック – トレーニング中にのみ肯定的な例が観察される – は,多くの実践的な問題に固有のものだ。
PAC学習フレームワークでは,各仮説をグラフで表現し,エッジは肯定的な相互作用を示す。
論文 参考訳(メタデータ) (2024-11-20T04:21:07Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - S$^3$c-Math: Spontaneous Step-level Self-correction Makes Large Language Models Better Mathematical Reasoners [23.713779973116733]
自己補正は,大規模言語モデル(LLM)の潜在的な推論能力を刺激する手法である
本稿では,S$3$c-Mathを提案する。
論文 参考訳(メタデータ) (2024-09-03T01:40:21Z) - Physics of Language Models: Part 2.2, How to Learn From Mistakes on Grade-School Math Problems [47.753284211200665]
我々は、事前訓練段階に直接「エラー訂正」データを組み込むことの有用性を理解することに注力する。
このデータは、即座に修正された誤った解ステップで構成されている。
このタイプの事前学習データにより、言語モデルの推論精度の向上が期待できる。
論文 参考訳(メタデータ) (2024-08-29T06:49:20Z) - Learning to Correct for QA Reasoning with Black-box LLMs [37.13135300208977]
我々は,機械学習におけるオープンチャレンジとして,COBB (Correct for improve QA reasoning of Black-Box LLMs)を提案する。
トレーニングされた適応モデルを使用して、オリジナルのブラックボックスLSMのしばしば不完全な推論から正しい推論、または改善された推論へのセック2seqマッピングを実行する。
実験の結果,CoBBは様々なQAベンチマークにおいて推理精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-06-26T18:57:32Z) - LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback [71.95402654982095]
本研究では,自然言語フィードバック型検証器Math-Minosを提案する。
実験の結果,少量の自然言語フィードバックが検証器の性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-06-20T06:42:27Z) - Evaluating Mathematical Reasoning of Large Language Models: A Focus on Error Identification and Correction [35.01097297297534]
LLM(Large Language Models)の既存の評価は、検査の観点からの問題解決に重点を置いている。
我々は、アノテーション付きエラータイプとステップを持つ新しいデータセットとともに、エラー識別と修正のための4つの評価タスクを定義した。
その結果, GPT-4は全モデルより優れており, LLaMA-2-7BはGPT-3.5やGemini Proに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-06-02T14:16:24Z) - Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.94251699982388]
大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。
この研究は、小さい(=13B)言語モデル(LM)が、より強いLMから最小の入力で推論タスクを自己補正できるかどうかを考察する。
論文 参考訳(メタデータ) (2024-04-26T03:41:28Z) - Achieving >97% on GSM8K: Deeply Understanding the Problems Makes LLMs Better Solvers for Math Word Problems [50.76385564061713]
CoT(Chain-of-Thought)のプロンプトにより、さまざまな推論タスクにわたるLLM(Large Language Models)のパフォーマンスが向上した。
CoTは通常、セマンティックな誤解エラー、計算エラー、ステップミスという3つの落とし穴に悩まされる。
意味的誤解の誤りに対処し,LLMの数学的問題解決能力を改善するために,DUP(Deeply Understanding the Problems)を提案する。
論文 参考訳(メタデータ) (2024-04-23T12:16:05Z) - Understanding and Mitigating Classification Errors Through Interpretable
Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。
正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。
提案手法であるPremiseが実際によく動作することを示す。
論文 参考訳(メタデータ) (2023-11-18T00:24:26Z) - Learning From Mistakes Makes LLM Better Reasoner [106.48571828587728]
大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。
この研究は、LLMが人間の学習プロセスに似たMistAkes(LEMA)から学習できるかどうかを探求する。
論文 参考訳(メタデータ) (2023-10-31T17:52:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。