論文の概要: Improving LLM Classification of Logical Errors by Integrating Error Relationship into Prompts
- arxiv url: http://arxiv.org/abs/2404.19336v2
- Date: Wed, 1 May 2024 05:14:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-02 10:59:25.965109
- Title: Improving LLM Classification of Logical Errors by Integrating Error Relationship into Prompts
- Title(参考訳): 誤り関係のプロンプトへの統合による論理誤差のLLM分類の改善
- Authors: Yanggyu Lee, Suchae Jeong, Jihie Kim,
- Abstract要約: プログラミング教育の重要な側面は、エラーメッセージの理解と処理である。
プログラムがプログラマの意図に反して動作している「論理エラー」は、コンパイラからエラーメッセージを受け取らない。
そこで本研究では,LLMを用いた論理的誤り検出手法を提案し,この手法を用いて,Chain-of-ThoughtとTree-of-Thoughtのプロンプトのエラータイプ間の関係を推定する。
- 参考スコア(独自算出の注目度): 1.7095867620640115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs trained in the understanding of programming syntax are now providing effective assistance to developers and are being used in programming education such as in generation of coding problem examples or providing code explanations. A key aspect of programming education is understanding and dealing with error message. However, 'logical errors' in which the program operates against the programmer's intentions do not receive error messages from the compiler. In this study, building on existing research on programming errors, we first define the types of logical errors that can occur in programming in general. Based on the definition, we propose an effective approach for detecting logical errors with LLMs that makes use of relations among error types in the Chain-of-Thought and Tree-of-Thought prompts. The experimental results indicate that when such logical error descriptions in the prompt are used, the average classifition performance is about 21% higher than the ones without them. We also conducted an experiment for exploiting the relations among errors in generating a new logical error dataset using LLMs. As there is very limited dataset for logical errors such benchmark dataset can be very useful for various programming related applications. We expect that our work can assist novice programmers in identifying the causes of code errors and correct them more effectively.
- Abstract(参考訳): プログラミング構文の理解において訓練されたLLMは、現在、開発者に効果的な支援を提供しており、コーディング問題の生成やコード説明の提供など、プログラミング教育で使用されている。
プログラミング教育の重要な側面は、エラーメッセージの理解と処理である。
しかし、プログラムがプログラマの意図に反して動作している「論理エラー」は、コンパイラからエラーメッセージを受け取らない。
本研究では,プログラムエラーに関する既存の研究に基づいて,プログラミング全般において発生する論理的エラーの種類をまず定義する。
本定義に基づき, チェーン・オブ・ソート・ツリー・オブ・ソート・プロンプトにおけるエラータイプ間の関係を利用したLLMを用いた論理誤差検出手法を提案する。
実験結果から, プロンプトにおける論理的誤り記述を用いた場合, 平均等差性能は, それらのないものよりも約21%高いことがわかった。
また,LLMを用いた新しい論理的誤りデータセットの生成において,エラー間の関係を利用した実験を行った。
論理的エラーに対するデータセットが非常に限られているため、このようなベンチマークデータセットは、様々なプログラミング関連のアプリケーションに非常に有用である。
私たちは、初心者プログラマがコードエラーの原因を特定し、より効果的に修正できることを期待しています。
関連論文リスト
- Logic Error Localization in Student Programming Assignments Using Pseudocode and Graph Neural Networks [31.600659350609476]
そこで我々は,学生プログラミングの課題における論理誤差を線形レベルでローカライズするシステムを開発した。
グラフニューラルネットワークを用いて、論理エラーの局所化と修正を提案する。
実験結果は有望であり、上位10行の論理誤差に対して99.2%の局所化精度を示す。
論文 参考訳(メタデータ) (2024-10-11T01:46:24Z) - Subtle Errors Matter: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは定義済みの微妙な誤りを正しい解の部分的なトークンに注入し、エラー軽減のためにハードペアを構築する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでは、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善された。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Not the Silver Bullet: LLM-enhanced Programming Error Messages are Ineffective in Practice [1.106787864231365]
GPT-4が生成したエラーメッセージは6つのタスクのうち1つで従来のコンパイラエラーメッセージよりも優れていた。
GPT-4が生成したエラーメッセージは6つのタスクのうち1つに過ぎず,従来のコンパイラエラーメッセージよりも優れていた。
論文 参考訳(メタデータ) (2024-09-27T11:45:56Z) - Decoding Logic Errors: A Comparative Study on Bug Detection by Students
and Large Language Models [5.162225137921625]
大規模言語モデル(LLM)は、最近、様々な計算タスクにおいて驚くべきパフォーマンスを示した。
GPT-3 と GPT-4 の2つの LLM の性能について検討した。
論文 参考訳(メタデータ) (2023-11-27T17:28:33Z) - Understanding and Mitigating Classification Errors Through Interpretable
Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。
正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。
提案手法であるPremiseが実際によく動作することを示す。
論文 参考訳(メタデータ) (2023-11-18T00:24:26Z) - Rule-Based Error Classification for Analyzing Differences in Frequent
Errors [0.0]
我々は、95,631の符号対の誤りを分類し、オンラインの判定システムにおいて、様々なレベルのプログラマが提出した平均3.47の誤りを識別する。
解析結果から, 初心者による誤りは, プログラミングの知識不足によるものであることがわかった。
一方、専門家が犯した誤りは、問題を読むことの不注意や、通常とは異なる問題解決の課題に起因する誤解によるものである。
論文 参考訳(メタデータ) (2023-11-01T13:36:20Z) - When Do Program-of-Thoughts Work for Reasoning? [51.2699797837818]
本稿では,コードと推論能力の相関性を測定するために,複雑性に富んだ推論スコア(CIRS)を提案する。
具体的には、抽象構文木を用いて構造情報をエンコードし、論理的複雑性を計算する。
コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。
論文 参考訳(メタデータ) (2023-08-29T17:22:39Z) - Dcc --help: Generating Context-Aware Compiler Error Explanations with
Large Language Models [53.04357141450459]
dcc --helpはCS1とCS2のコースにデプロイされ、2565人の学生が10週間で64,000回以上このツールを使っている。
LLMが生成した説明は、コンパイル時間の90%と実行時の75%で概念的に正確であるが、コードに解決策を提供しない命令を無視することが多かった。
論文 参考訳(メタデータ) (2023-08-23T02:36:19Z) - Using Large Language Models to Enhance Programming Error Messages [5.903720638984496]
大規模な言語モデルは、エラーメッセージのプログラミングに有用な拡張を作成するために使用することができる。
我々は,大規模言語モデルの利点と欠点について論じ,プログラムエラーメッセージの強化に向けた今後の研究の流れを浮き彫りにする。
論文 参考訳(メタデータ) (2022-10-20T23:17:26Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。