論文の概要: Error Reflection Prompting: Can Large Language Models Successfully Understand Errors?
- arxiv url: http://arxiv.org/abs/2508.16729v1
- Date: Fri, 22 Aug 2025 18:02:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.148564
- Title: Error Reflection Prompting: Can Large Language Models Successfully Understand Errors?
- Title(参考訳): Error Reflection Prompting: 大規模言語モデルはエラーに耐えられるか?
- Authors: Jason Li, Lauren Yraola, Kevin Zhu, Sean O'Brien,
- Abstract要約: チェーン・オブ・シント(CoT)手法は、与えられたタスクに対処するための正しい手順をよりよく理解したモデルを装備することを目的としている。
本稿では,言語モデルにおける推論をさらに強化するために,エラーリフレクション・プロンプト(ERP)を提案する。
- 参考スコア(独自算出の注目度): 8.4909975287531
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompting methods for language models, such as Chain-of-thought (CoT), present intuitive step-by-step processes for problem solving. These methodologies aim to equip models with a better understanding of the correct procedures for addressing a given task. Despite these advancements, CoT lacks the ability of reflection and error correction, potentially causing a model to perpetuate mistakes and errors. Therefore, inspired by the human ability for said tasks, we propose Error Reflection Prompting (ERP) to further enhance reasoning in language models. Building upon CoT, ERP is a method comprised of an incorrect answer, error recognition, and a correct answer. This process enables the model to recognize types of errors and the steps that lead to incorrect answers, allowing the model to better discern which steps to avoid and which to take. The model is able to generate the error outlines itself with automated ERP generation, allowing for error recognition and correction to be integrated into the reasoning chain and produce scalability and reliability in the process. The results demonstrate that ERP serves as a versatile supplement to conventional CoT, ultimately contributing to more robust and capable reasoning abilities along with increased interpretability in how models ultimately reach their errors.
- Abstract(参考訳): CoT(Chain-of-Thought)のような言語モデルのプロンプティング手法は、問題解決のための直感的なステップバイステッププロセスを示す。
これらの手法は、与えられたタスクに対処するための正しい手順をよりよく理解したモデルを装備することを目的としている。
これらの進歩にもかかわらず、CoTはリフレクションとエラー訂正の能力に欠けており、モデルがミスやエラーを永続させる可能性がある。
そこで本研究では, 言語モデルにおける推論をさらに強化するために, 誤り反射プロンプト(ERP)を提案する。
CoTに基づいて構築されたERPは、誤った回答、誤り認識、正しい回答からなる方法である。
このプロセスは、モデルがエラーの種類と誤った答えにつながるステップを認識し、モデルがどのステップを回避し、どのステップを取るかをよりよく識別することを可能にする。
このモデルでは、エラーアウトラインを自動ERP生成で生成することができ、エラー認識と修正を推論チェーンに統合し、プロセスのスケーラビリティと信頼性を実現することができる。
その結果、ERPは従来のCoTの汎用的なサプリメントとして機能し、最終的にはモデルが最終的にエラーに達する際の解釈可能性の向上とともに、より堅牢で有能な推論能力に寄与することが示された。
関連論文リスト
- Beyond Output Critique: Self-Correction via Task Distillation [36.44752912823049]
本稿では,ソリューションの洗練に先立ってタスク抽象化の中間段階を導入するフレームワークを提案する。
入力と初期応答が与えられた後、モデルはまず、主要な変数、制約、問題構造をキャプチャする構造化テンプレートにタスクを蒸留する。
この抽象化により、解のインスタンス化が導かれ、タスクのより明確な理解において、その後の応答がグラウンド化される。
論文 参考訳(メタデータ) (2026-01-31T19:15:41Z) - InT: Self-Proposed Interventions Enable Credit Assignment in LLM Reasoning [32.274434679047395]
アウトカム・リワード強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上に有効であることが証明された。
標準RLは最終回答のレベルにのみクレジットを割り当て、結果が正しくない場合にすべての推論トレースを罰する。
Invention Training (InT) は、モデルが独自の推論トレースに基づいてきめ細かいクレジット割り当てを行う訓練パラダイムである。
論文 参考訳(メタデータ) (2026-01-20T18:15:38Z) - Synthetic Error Injection Fails to Elicit Self-Correction In Language Models [14.76894432271754]
合成誤り注入による教師付き学習が言語モデルにおける自己補正能力を誘導するかどうかを検討する。
我々のアプローチは、人工的なエラーを推論チェーンに挿入し、それらをマスクし、これらの誤りを認識し修正するためのモデルを監督する。
本研究は,政策強化学習法が自己補正に一意に有効であることが証明された理由を説明するのに有用である。
論文 参考訳(メタデータ) (2025-12-02T03:57:49Z) - From Denoising to Refining: A Corrective Framework for Vision-Language Diffusion Model [72.73512218682187]
ReDiff(Refining-enhanced diffusion framework)は、モデルに自身のエラーを特定し、修正するように教えるフレームワークである。
まず、合成エラーを修正するためにモデルをトレーニングすることで、基礎的なリビジョン機能を具現化し、次に、新しいオンライン自己補正ループを実装します。
この誤り駆動学習は、モデルに既存の出力を再検討し、洗練する重要な能力を与え、エラーカスケードを効果的に破壊する。
論文 参考訳(メタデータ) (2025-10-22T06:58:55Z) - Language Models can perform Single-Utterance Self-Correction of Perturbed Reasoning [4.768151813962547]
大規模言語モデル(LLM)は、驚くべき数学的推論能力を示している。
それらの性能は、問題記述と迅速な戦略の微妙なバリエーションに引き続き脆弱である。
近年のモデルの自己補正能力をよりよく理解するために,モデルが自己補正合成を行う能力を測定する実験を行った。
論文 参考訳(メタデータ) (2025-06-18T21:35:44Z) - EULER: Enhancing the Reasoning Ability of Large Language Models through Error-Induced Learning [66.82956219777763]
大きな言語モデル(LLM)は強力な推論能力を示している。
Error-IndUced LEaRning (EULER) モデルは、高品質なソリューションエラーを生成するエラー露光モデルを開発することを目的としている。
論文 参考訳(メタデータ) (2025-05-28T08:57:03Z) - LEMMA: Learning from Errors for MatheMatical Advancement in LLMs [33.571479131705075]
我々は,大規模言語モデルの推論能力を高めるために,数学的発展のための誤りからの学習(LEMMA)を導入する。
LEMMAは、誤ったステップの間違った解と、微調整のための正しい解への反射接続からなるデータを構成する。
実験結果から, LEMMAは他の強力なベースラインよりも高い性能向上が得られた。
論文 参考訳(メタデータ) (2025-03-21T17:59:10Z) - Self-Corrective Task Planning by Inverse Prompting with Large Language Models [9.283971287618261]
InversePromptは,新しい自己修正型タスクプランニング手法である。
提案手法は、明確な解釈可能なフィードバックを提供するための推論ステップを組み込んだものである。
ベンチマークデータセットの結果は、既存のLCMベースのタスク計画手法よりも平均16.3%高い成功率を示している。
論文 参考訳(メタデータ) (2025-03-10T13:35:51Z) - ProcessBench: Identifying Process Errors in Mathematical Reasoning [62.80402845414901]
本稿では,数学的推論における誤ったステップを識別する能力を測定するためのProcessBenchを紹介する。
ProcessBenchは3400のテストケースで構成され、主に競合とオリンピアードレベルの数学問題に焦点を当てている。
我々はProcessBenchについて、プロセス報酬モデル(PRM)と批判モデルという2種類のモデルを含む広範囲な評価を行う。
論文 参考訳(メタデータ) (2024-12-09T15:11:40Z) - Subtle Errors in Reasoning: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは、事前定義された微妙なエラーをピボットトークンに注入する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。
完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。
SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文 参考訳(メタデータ) (2024-09-19T17:16:21Z) - Tuning-Free Accountable Intervention for LLM Deployment -- A
Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。
我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T19:18:53Z) - Understanding and Mitigating Classification Errors Through Interpretable
Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。
正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。
提案手法であるPremiseが実際によく動作することを示す。
論文 参考訳(メタデータ) (2023-11-18T00:24:26Z) - You Can Generate It Again: Data-to-Text Generation with Verification and Correction Prompting [24.738004421537926]
T5のような小さな言語モデルは、データからテキストへのタスクのための高品質なテキストを生成するのに優れている。
彼らはしばしばキーワードを見逃すが、これはこのタスクで最も重大で一般的なエラーの1つだと考えられている。
我々は,データ・テキスト生成タスクにおいて,より小さな言語モデルにおける意味的忠実度を高めるためにフィードバックシステムを利用することの可能性を探る。
論文 参考訳(メタデータ) (2023-06-28T05:34:25Z) - Sufficiently Accurate Model Learning for Planning [119.80502738709937]
本稿では,制約付きSufficiently Accurateモデル学習手法を提案する。
これはそのような問題の例を示し、いくつかの近似解がいかに近いかという定理を提示する。
近似解の質は、関数のパラメータ化、損失と制約関数の滑らかさ、モデル学習におけるサンプルの数に依存する。
論文 参考訳(メタデータ) (2021-02-11T16:27:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。