Fugu-MT 論文翻訳(概要): Subtle Errors Matter: Preference Learning via Error-injected Self-editing

論文の概要: Subtle Errors Matter: Preference Learning via Error-injected Self-editing

arxiv url: http://arxiv.org/abs/2410.06638v1
Date: Wed, 9 Oct 2024 07:43:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-01 04:39:35.489951
Title: Subtle Errors Matter: Preference Learning via Error-injected Self-editing
Title（参考訳）: サブトルエラーが重要: エラー注入型自己編集による選好学習
Authors: Kaishuai Xu, Tiezheng Yu, Wenjun Hou, Yi Cheng, Chak Tou Leong, Liangyou Li, Xin Jiang, Lifeng Shang, Qun Liu, Wenjie Li,
Abstract要約: eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。 RISEは定義済みの微妙な誤りを正しい解の部分的なトークンに注入し、エラー軽減のためにハードペアを構築する。 RISEの有効性を検証する実験では、Qwen2-7B-Instructでは、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善された。
参考スコア（独自算出の注目度）: 59.405145971637204
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have exhibited strong mathematical reasoning and computational prowess, tackling tasks ranging from basic arithmetic to advanced competition-level problems. However, frequently occurring subtle errors, such as miscalculations or incorrect substitutions, limit the models' full mathematical potential. Existing studies to improve mathematical ability typically involve distilling reasoning skills from stronger LLMs or applying preference learning to step-wise response pairs. Although these methods leverage samples of varying granularity to mitigate reasoning errors, they overlook the frequently occurring subtle errors. A major reason is that sampled preference pairs involve differences unrelated to the errors, which may distract the model from focusing on subtle errors. In this work, we propose a novel preference learning framework called eRror-Injected Self-Editing (RISE), which injects predefined subtle errors into partial tokens of correct solutions to construct hard pairs for error mitigation. In detail, RISE uses the model itself to edit a small number of tokens in the solution, injecting designed subtle errors. Then, pairs composed of self-edited solutions and their corresponding correct ones, along with pairs of correct and incorrect solutions obtained through sampling, are used together for subtle error-aware DPO training. Compared with other preference learning methods, RISE further refines the training objective to focus on predefined errors and their tokens, without requiring fine-grained sampling or preference annotation. Extensive experiments validate the effectiveness of RISE, with preference learning on Qwen2-7B-Instruct yielding notable improvements of 3.0% on GSM8K and 7.9% on MATH.
Abstract（参考訳）: LLM(Large Language Models)は、基本的な算術から高度な競合レベルの問題まで、強力な数学的推論と計算能力を示してきた。しかし、誤計算や誤置換などの微妙な誤りが頻繁に発生するため、モデルの完全な数学的ポテンシャルは制限される。数学能力を向上させるための既存の研究は、典型的には、強いLLMからの蒸留推論スキルや、ステップワイズ対応ペアに好みの学習を適用することを含む。これらの手法は、様々な粒度のサンプルを利用して推論誤差を軽減するが、しばしば発生する微妙な誤りを見落としている。主な理由は、サンプルの選好ペアがエラーとは無関係な相違を伴うため、モデルが微妙なエラーに焦点を合わせるのを妨げてしまう可能性がある。本研究では,eRror-Injected Self-Editing (RISE) と呼ばれる新しい選好学習フレームワークを提案する。詳細は、RISEはモデル自体を使用して、ソリューション内の少数のトークンを編集し、設計された微妙なエラーを注入する。次に、自己編集解とそれに対応する正解からなるペアと、サンプリングによって得られた正解と誤解のペアを合わせて、微妙な誤り認識DPOトレーニングを行う。他の選好学習法と比較して、RISEは、詳細なサンプリングや選好アノテーションを必要とせず、事前定義されたエラーとそのトークンに焦点を当てる訓練目標をさらに洗練する。 Qwen2-7B-Instructでは、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善された。

関連論文リスト

ZeroED: Hybrid Zero-shot Error Detection through Large Language Model Reasoning [45.352592886478774]
我々は,新しいゼロショット誤り検出フレームワークZeroEDを提案する。 ZeroEDは、特徴表現、エラーラベリング、データ構築のトレーニング、検出器トレーニングの4つのステップで運用されている。実験の結果、ZeroEDはF1スコアの最大30%改善と最大90%のトークンコスト削減で最先端の手法を大幅に上回ることがわかった。
論文参考訳（メタデータ） (2025-04-06T10:28:41Z)
LEMMA: Learning from Errors for MatheMatical Advancement in LLMs [33.571479131705075]
我々は,大規模言語モデルの推論能力を高めるために,数学的発展のための誤りからの学習(LEMMA)を導入する。 LEMMAは、誤ったステップの間違った解と、微調整のための正しい解への反射接続からなるデータを構成する。実験結果から, LEMMAは他の強力なベースラインよりも高い性能向上が得られた。
論文参考訳（メタデータ） (2025-03-21T17:59:10Z)
IterPref: Focal Preference Learning for Code Generation via Iterative Debugging [28.020886216989872]
We propose IterPref, a new preference alignment framework for Code LLMs。 IterPrefは明示的にエラー領域を特定し、対応するトークンを調整されたDPOアルゴリズムで調整する。 IterPrefはコード生成において大幅なパフォーマンス向上を実現し、BigCodeBenchのような課題を改善する。
論文参考訳（メタデータ） (2025-03-04T16:56:34Z)
Error Classification of Large Language Models on Math Word Problems: A Dynamically Adaptive Framework [64.83955753606443]
数学の単語問題は、大規模言語モデルの推論能力を評価するための重要なベンチマークとなる。現在のエラー分類法は静的および事前定義されたカテゴリに依存している。 MWPES-300Kは,304,865個のエラーサンプルを含む包括的データセットである。
論文参考訳（メタデータ） (2025-01-26T16:17:57Z)
Probably Approximately Precision and Recall Learning [62.912015491907994]
精度とリコールは機械学習の基本的な指標である。一方的なフィードバック – トレーニング中にのみ肯定的な例が観察される – は,多くの実践的な問題に固有のものだ。 PAC学習フレームワークでは,各仮説をグラフで表現し,エッジは肯定的な相互作用を示す。
論文参考訳（メタデータ） (2024-11-20T04:21:07Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
S$^3$c-Math: Spontaneous Step-level Self-correction Makes Large Language Models Better Mathematical Reasoners [23.713779973116733]
自己補正は,大規模言語モデル(LLM)の潜在的な推論能力を刺激する手法である本稿では,S$3$c-Mathを提案する。
論文参考訳（メタデータ） (2024-09-03T01:40:21Z)
Physics of Language Models: Part 2.2, How to Learn From Mistakes on Grade-School Math Problems [47.753284211200665]
我々は、事前訓練段階に直接「エラー訂正」データを組み込むことの有用性を理解することに注力する。このデータは、即座に修正された誤った解ステップで構成されている。このタイプの事前学習データにより、言語モデルの推論精度の向上が期待できる。
論文参考訳（メタデータ） (2024-08-29T06:49:20Z)
Learning to Correct for QA Reasoning with Black-box LLMs [37.13135300208977]
我々は,機械学習におけるオープンチャレンジとして,COBB (Correct for improve QA reasoning of Black-Box LLMs)を提案する。トレーニングされた適応モデルを使用して、オリジナルのブラックボックスLSMのしばしば不完全な推論から正しい推論、または改善された推論へのセック2seqマッピングを実行する。実験の結果,CoBBは様々なQAベンチマークにおいて推理精度を大幅に向上することが示された。
論文参考訳（メタデータ） (2024-06-26T18:57:32Z)
LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback [71.95402654982095]
本研究では,自然言語フィードバック型検証器Math-Minosを提案する。実験の結果,少量の自然言語フィードバックが検証器の性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-06-20T06:42:27Z)
Evaluating Mathematical Reasoning of Large Language Models: A Focus on Error Identification and Correction [35.01097297297534]
LLM(Large Language Models)の既存の評価は、検査の観点からの問題解決に重点を置いている。我々は、アノテーション付きエラータイプとステップを持つ新しいデータセットとともに、エラー識別と修正のための4つの評価タスクを定義した。その結果, GPT-4は全モデルより優れており, LLaMA-2-7BはGPT-3.5やGemini Proに匹敵する性能を示した。
論文参考訳（メタデータ） (2024-06-02T14:16:24Z)
Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.94251699982388]
大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。この研究は、小さい(=13B)言語モデル(LM)が、より強いLMから最小の入力で推論タスクを自己補正できるかどうかを考察する。
論文参考訳（メタデータ） (2024-04-26T03:41:28Z)
Achieving >97% on GSM8K: Deeply Understanding the Problems Makes LLMs Better Solvers for Math Word Problems [50.76385564061713]
CoT(Chain-of-Thought)のプロンプトにより、さまざまな推論タスクにわたるLLM(Large Language Models)のパフォーマンスが向上した。 CoTは通常、セマンティックな誤解エラー、計算エラー、ステップミスという3つの落とし穴に悩まされる。意味的誤解の誤りに対処し,LLMの数学的問題解決能力を改善するために,DUP(Deeply Understanding the Problems)を提案する。
論文参考訳（メタデータ） (2024-04-23T12:16:05Z)
Understanding and Mitigating Classification Errors Through Interpretable Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。提案手法であるPremiseが実際によく動作することを示す。
論文参考訳（メタデータ） (2023-11-18T00:24:26Z)
Learning From Mistakes Makes LLM Better Reasoner [106.48571828587728]
大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。この研究は、LLMが人間の学習プロセスに似たMistAkes(LEMA)から学習できるかどうかを探求する。
論文参考訳（メタデータ） (2023-10-31T17:52:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。