論文の概要: Error Reflection Prompting: Can Large Language Models Successfully Understand Errors?
- arxiv url: http://arxiv.org/abs/2508.16729v1
- Date: Fri, 22 Aug 2025 18:02:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.148564
- Title: Error Reflection Prompting: Can Large Language Models Successfully Understand Errors?
- Title(参考訳): Error Reflection Prompting: 大規模言語モデルはエラーに耐えられるか?
- Authors: Jason Li, Lauren Yraola, Kevin Zhu, Sean O'Brien,
- Abstract要約: チェーン・オブ・シント(CoT)手法は、与えられたタスクに対処するための正しい手順をよりよく理解したモデルを装備することを目的としている。
本稿では,言語モデルにおける推論をさらに強化するために,エラーリフレクション・プロンプト(ERP)を提案する。
- 参考スコア(独自算出の注目度): 8.4909975287531
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompting methods for language models, such as Chain-of-thought (CoT), present intuitive step-by-step processes for problem solving. These methodologies aim to equip models with a better understanding of the correct procedures for addressing a given task. Despite these advancements, CoT lacks the ability of reflection and error correction, potentially causing a model to perpetuate mistakes and errors. Therefore, inspired by the human ability for said tasks, we propose Error Reflection Prompting (ERP) to further enhance reasoning in language models. Building upon CoT, ERP is a method comprised of an incorrect answer, error recognition, and a correct answer. This process enables the model to recognize types of errors and the steps that lead to incorrect answers, allowing the model to better discern which steps to avoid and which to take. The model is able to generate the error outlines itself with automated ERP generation, allowing for error recognition and correction to be integrated into the reasoning chain and produce scalability and reliability in the process. The results demonstrate that ERP serves as a versatile supplement to conventional CoT, ultimately contributing to more robust and capable reasoning abilities along with increased interpretability in how models ultimately reach their errors.
- Abstract(参考訳): CoT(Chain-of-Thought)のような言語モデルのプロンプティング手法は、問題解決のための直感的なステップバイステッププロセスを示す。
これらの手法は、与えられたタスクに対処するための正しい手順をよりよく理解したモデルを装備することを目的としている。
これらの進歩にもかかわらず、CoTはリフレクションとエラー訂正の能力に欠けており、モデルがミスやエラーを永続させる可能性がある。
そこで本研究では, 言語モデルにおける推論をさらに強化するために, 誤り反射プロンプト(ERP)を提案する。
CoTに基づいて構築されたERPは、誤った回答、誤り認識、正しい回答からなる方法である。
このプロセスは、モデルがエラーの種類と誤った答えにつながるステップを認識し、モデルがどのステップを回避し、どのステップを取るかをよりよく識別することを可能にする。
このモデルでは、エラーアウトラインを自動ERP生成で生成することができ、エラー認識と修正を推論チェーンに統合し、プロセスのスケーラビリティと信頼性を実現することができる。
その結果、ERPは従来のCoTの汎用的なサプリメントとして機能し、最終的にはモデルが最終的にエラーに達する際の解釈可能性の向上とともに、より堅牢で有能な推論能力に寄与することが示された。
関連論文リスト
- Language Models can perform Single-Utterance Self-Correction of Perturbed Reasoning [4.768151813962547]
大規模言語モデル(LLM)は、驚くべき数学的推論能力を示している。
それらの性能は、問題記述と迅速な戦略の微妙なバリエーションに引き続き脆弱である。
近年のモデルの自己補正能力をよりよく理解するために,モデルが自己補正合成を行う能力を測定する実験を行った。
論文 参考訳(メタデータ) (2025-06-18T21:35:44Z) - EULER: Enhancing the Reasoning Ability of Large Language Models through Error-Induced Learning [66.82956219777763]
大きな言語モデル(LLM)は強力な推論能力を示している。
Error-IndUced LEaRning (EULER) モデルは、高品質なソリューションエラーを生成するエラー露光モデルを開発することを目的としている。
論文 参考訳(メタデータ) (2025-05-28T08:57:03Z) - LEMMA: Learning from Errors for MatheMatical Advancement in LLMs [33.571479131705075]
我々は,大規模言語モデルの推論能力を高めるために,数学的発展のための誤りからの学習(LEMMA)を導入する。
LEMMAは、誤ったステップの間違った解と、微調整のための正しい解への反射接続からなるデータを構成する。
実験結果から, LEMMAは他の強力なベースラインよりも高い性能向上が得られた。
論文 参考訳(メタデータ) (2025-03-21T17:59:10Z) - Self-Corrective Task Planning by Inverse Prompting with Large Language Models [9.283971287618261]
InversePromptは,新しい自己修正型タスクプランニング手法である。
提案手法は、明確な解釈可能なフィードバックを提供するための推論ステップを組み込んだものである。
ベンチマークデータセットの結果は、既存のLCMベースのタスク計画手法よりも平均16.3%高い成功率を示している。
論文 参考訳(メタデータ) (2025-03-10T13:35:51Z) - ProcessBench: Identifying Process Errors in Mathematical Reasoning [62.80402845414901]
本稿では,数学的推論における誤ったステップを識別する能力を測定するためのProcessBenchを紹介する。
ProcessBenchは3400のテストケースで構成され、主に競合とオリンピアードレベルの数学問題に焦点を当てている。
我々はProcessBenchについて、プロセス報酬モデル(PRM)と批判モデルという2種類のモデルを含む広範囲な評価を行う。
論文 参考訳(メタデータ) (2024-12-09T15:11:40Z) - Subtle Errors in Reasoning: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは、事前定義された微妙なエラーをピボットトークンに注入する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - Tuning-Free Accountable Intervention for LLM Deployment -- A
Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。
我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T19:18:53Z) - You Can Generate It Again: Data-to-Text Generation with Verification and Correction Prompting [24.738004421537926]
T5のような小さな言語モデルは、データからテキストへのタスクのための高品質なテキストを生成するのに優れている。
彼らはしばしばキーワードを見逃すが、これはこのタスクで最も重大で一般的なエラーの1つだと考えられている。
我々は,データ・テキスト生成タスクにおいて,より小さな言語モデルにおける意味的忠実度を高めるためにフィードバックシステムを利用することの可能性を探る。
論文 参考訳(メタデータ) (2023-06-28T05:34:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。