論文の概要: Cracking the Code: Evaluating Zero-Shot Prompting Methods for Providing Programming Feedback
- arxiv url: http://arxiv.org/abs/2412.15702v1
- Date: Fri, 20 Dec 2024 09:24:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:21:27.407431
- Title: Cracking the Code: Evaluating Zero-Shot Prompting Methods for Providing Programming Feedback
- Title(参考訳): コードのクラック: プログラミングのフィードバックを提供するためのゼロショットプロンプト手法の評価
- Authors: Niklas Ippisch, Anna-Carolina Haensch, Jan Simson, Jacob Beck, Markus Herklotz, Malte Schierholz,
- Abstract要約: このケーススタディでは、異なるゼロショットプロンプトエンジニアリング手法を評価するための評価フレームワークを導入している。
提案手法を体系的に変更し,提案したRのプログラムエラーに対するフィードバックを分析した。
- 参考スコア(独自算出の注目度): 2.309018557701645
- License:
- Abstract: Despite the growing use of large language models (LLMs) for providing feedback, limited research has explored how to achieve high-quality feedback. This case study introduces an evaluation framework to assess different zero-shot prompt engineering methods. We varied the prompts systematically and analyzed the provided feedback on programming errors in R. The results suggest that prompts suggesting a stepwise procedure increase the precision, while omitting explicit specifications about which provided data to analyze improves error identification.
- Abstract(参考訳): フィードバックを提供するために大きな言語モデル(LLM)が増えているにもかかわらず、限られた研究で高品質なフィードバックを実現する方法が検討されている。
このケーススタディでは、異なるゼロショットプロンプトエンジニアリング手法を評価するための評価フレームワークを導入している。
結果から,提案手法の精度向上を示唆するプロンプトが,提案したデータに関する明示的な仕様を省略し,エラー識別を改善することが示唆された。
関連論文リスト
- Scoring Verifiers: Evaluating Synthetic Verification in Code and Reasoning [59.25951947621526]
本稿では,合成検証手法が解の正当性評価に与える影響を評価するためのベンチマークを紹介する。
我々は,標準,推論,報酬に基づくLLMにおける合成検証手法を解析した。
その結果,最近の推論モデルではテストケースの生成が大幅に改善され,スケールテストケースの精度が向上した。
論文 参考訳(メタデータ) (2025-02-19T15:32:11Z) - ReLearn: Unlearning via Learning for Large Language Models [64.2802606302194]
本研究では、効果的なアンラーニングのためのデータ拡張および微調整パイプラインであるReLearnを提案する。
このフレームワークでは、知識レベルの保存を測定するために、知識獲得率(KFR)と知識保持率(KRR)を導入している。
実験の結果,ReLearnは高品質な出力を保ちながら,目標とするリセットを実現することができた。
論文 参考訳(メタデータ) (2025-02-16T16:31:00Z) - When LLMs Struggle: Reference-less Translation Evaluation for Low-resource Languages [9.138590152838754]
セグメントレベルの品質評価(QE)は言語間理解の難しい課題である。
ゼロ/フェーショットシナリオにおいて,大規模言語モデル (LLM) を包括的に評価する。
この結果から,エンコーダを用いた微調整QEモデルでは,プロンプトベースアプローチの方が優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-01-08T12:54:05Z) - Enhancing Relation Extraction via Supervised Rationale Verification and Feedback [12.687458877141934]
本稿では,関係抽出のための新しいフィードバックフレームワークを提案する。
合理性を検証するための合理性スーパーバイザを提供し、初期予測を正すためのフィードバックとして再選択されたデモを提供する。
提案手法は既存手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2024-12-10T08:18:29Z) - Can We Further Elicit Reasoning in LLMs? Critic-Guided Planning with Retrieval-Augmentation for Solving Challenging Tasks [68.49251303172674]
最先端の大規模言語モデル(LLM)は、目覚ましい問題解決能力を示すが、複雑な推論と事実の正しさに苦慮する可能性がある。
既存の手法では、チェーン・オブ・ソートと検索強化生成(RAG)の強みを利用して、複雑な問題をより単純なステップに分解し、検索を適用して事実の正しさを向上させる。
CR-Planner(CR-Planner, CR-Planner, CR-Planner)は, 微調整された批判モデルを利用して, 推論と検索の両方のプロセスを計画を通してガイドする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-10-02T11:26:02Z) - Benchmarking Educational Program Repair [4.981275578987307]
大きな言語モデル(LLM)は、学習リソースの生成、エラーメッセージの改善、コードに対するフィードバックの提供に使用することができる。
競合するアプローチの公平な比較を容易にするため、標準化とベンチマークが強く求められている。
本稿では,新しい教育プログラム修復ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-05-08T18:23:59Z) - A Case for Validation Buffer in Pessimistic Actor-Critic [1.5022206231191775]
評価誤差はベルマン値と同様の固定点モデルにより近似できることを示す。
本稿では,悲観的批判が偏りのない条件を抽出するための検証ペシミズム学習(VPL)アルゴリズムを提案する。
VPLは、エージェントトレーニングを通してペシミズムのレベルを調整するために、小さなバリデーションバッファを使用し、批判対象の近似誤差を最小限に抑えるように悲観的セットをセットする。
論文 参考訳(メタデータ) (2024-03-01T22:24:11Z) - Towards Better Evaluation of Instruction-Following: A Case-Study in
Summarization [9.686937153317809]
本研究では,多種多様なメトリクスのメタ評価を行い,大規模言語モデルの指示追従能力の精度を定量的に評価する。
riSumを用いて評価方法と人的判断の一致を分析した。
論文 参考訳(メタデータ) (2023-10-12T15:07:11Z) - System-Level Natural Language Feedback [83.24259100437965]
システムレベルの設計決定を人為的なループプロセスで形式化する上で,フィードバックの活用方法を示す。
検索クエリと対話応答生成を改善するために,本手法のケーススタディを2つ実施する。
システムレベルのフィードバックとインスタンスレベルのフィードバックの組み合わせは、さらなる利益をもたらします。
論文 参考訳(メタデータ) (2023-06-23T16:21:40Z) - The Wisdom of Hindsight Makes Language Models Better Instruction
Followers [84.9120606803906]
強化学習は、人間のフィードバックによる指示に合うように、大きな言語モデルを微調整することに成功している。
そこで本稿では,本論文で提案するアプローチとして,原文を緩和することでフィードバックを指導に変換する手法と,教師付き手法によるアライメント向上のためのモデルをトレーニングする手法を提案する。
言語モデルと命令を整合させる新しいアルゴリズムであるHIR(Hindsight Instruction Relabeling)を提案する。
論文 参考訳(メタデータ) (2023-02-10T12:16:38Z) - FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality
Assessment [93.09267863425492]
競争力のあるスポーツビデオにおける行動の高レベル意味論と内部時間構造の両方を理解することが、予測を正確かつ解釈可能なものにする鍵である、と我々は主張する。
本研究では,多様なダイビングイベントに対して,アクションプロシージャに関する詳細なアノテーションを付加した,ファインディビングと呼ばれる詳細なデータセットを構築した。
論文 参考訳(メタデータ) (2022-04-07T17:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。