Fugu-MT 論文翻訳(概要): Cracking the Code: Evaluating Zero-Shot Prompting Methods for Providing Programming Feedback

論文の概要: Cracking the Code: Evaluating Zero-Shot Prompting Methods for Providing Programming Feedback

arxiv url: http://arxiv.org/abs/2412.15702v1
Date: Fri, 20 Dec 2024 09:24:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-23 18:46:08.906243
Title: Cracking the Code: Evaluating Zero-Shot Prompting Methods for Providing Programming Feedback
Title（参考訳）: コードのクラック: プログラミングのフィードバックを提供するためのゼロショットプロンプト手法の評価
Authors: Niklas Ippisch, Anna-Carolina Haensch, Jan Simson, Jacob Beck, Markus Herklotz, Malte Schierholz,
Abstract要約: このケーススタディでは、異なるゼロショットプロンプトエンジニアリング手法を評価するための評価フレームワークを導入している。提案手法を体系的に変更し,提案したRのプログラムエラーに対するフィードバックを分析した。
参考スコア（独自算出の注目度）: 2.309018557701645
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite the growing use of large language models (LLMs) for providing feedback, limited research has explored how to achieve high-quality feedback. This case study introduces an evaluation framework to assess different zero-shot prompt engineering methods. We varied the prompts systematically and analyzed the provided feedback on programming errors in R. The results suggest that prompts suggesting a stepwise procedure increase the precision, while omitting explicit specifications about which provided data to analyze improves error identification.
Abstract（参考訳）: フィードバックを提供するために大きな言語モデル(LLM)が増えているにもかかわらず、限られた研究で高品質なフィードバックを実現する方法が検討されている。このケーススタディでは、異なるゼロショットプロンプトエンジニアリング手法を評価するための評価フレームワークを導入している。結果から,提案手法の精度向上を示唆するプロンプトが,提案したデータに関する明示的な仕様を省略し,エラー識別を改善することが示唆された。

関連論文リスト

Training Language Model to Critique for Better Refinement [58.73039433159486]
textbfRefinement-oriented textbfCritique textbfOptimization (RCO)を導入する。 RCOは、批評家モデルによって生成された批評がアクターモデルに応答を洗練させるためのフィードバックループを使用する。より良い改善につながる批判に焦点を当てることで、RCOは直接的な批判的嗜好評価の必要性を排除している。
論文参考訳（メタデータ） (2025-06-27T12:10:57Z)
RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文参考訳（メタデータ） (2025-05-28T14:55:33Z)
On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文参考訳（メタデータ） (2025-04-02T17:40:47Z)
SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文参考訳（メタデータ） (2025-02-24T07:15:05Z)
ReLearn: Unlearning via Learning for Large Language Models [64.2802606302194]
本研究では、効果的なアンラーニングのためのデータ拡張および微調整パイプラインであるReLearnを提案する。このフレームワークでは、知識レベルの保存を測定するために、知識獲得率(KFR)と知識保持率(KRR)を導入している。実験の結果,ReLearnは高品質な出力を保ちながら,目標とするリセットを実現することができた。
論文参考訳（メタデータ） (2025-02-16T16:31:00Z)
When LLMs Struggle: Reference-less Translation Evaluation for Low-resource Languages [9.138590152838754]
セグメントレベルの品質評価(QE)は言語間理解の難しい課題である。ゼロ/フェーショットシナリオにおいて,大規模言語モデル (LLM) を包括的に評価する。この結果から,エンコーダを用いた微調整QEモデルでは,プロンプトベースアプローチの方が優れていたことが示唆された。
論文参考訳（メタデータ） (2025-01-08T12:54:05Z)
Enhancing Relation Extraction via Supervised Rationale Verification and Feedback [12.687458877141934]
本稿では,関係抽出のための新しいフィードバックフレームワークを提案する。合理性を検証するための合理性スーパーバイザを提供し、初期予測を正すためのフィードバックとして再選択されたデモを提供する。提案手法は既存手法よりも大幅に優れている。
論文参考訳（メタデータ） (2024-12-10T08:18:29Z)
Can We Further Elicit Reasoning in LLMs? Critic-Guided Planning with Retrieval-Augmentation for Solving Challenging Tasks [68.49251303172674]
最先端の大規模言語モデル(LLM)は、目覚ましい問題解決能力を示すが、複雑な推論と事実の正しさに苦慮する可能性がある。既存の手法では、チェーン・オブ・ソートと検索強化生成(RAG)の強みを利用して、複雑な問題をより単純なステップに分解し、検索を適用して事実の正しさを向上させる。 CR-Planner(CR-Planner, CR-Planner, CR-Planner)は, 微調整された批判モデルを利用して, 推論と検索の両方のプロセスを計画を通してガイドする新しいフレームワークである。
論文参考訳（メタデータ） (2024-10-02T11:26:02Z)
Benchmarking Educational Program Repair [4.981275578987307]
大きな言語モデル(LLM)は、学習リソースの生成、エラーメッセージの改善、コードに対するフィードバックの提供に使用することができる。競合するアプローチの公平な比較を容易にするため、標準化とベンチマークが強く求められている。本稿では,新しい教育プログラム修復ベンチマークを提案する。
論文参考訳（メタデータ） (2024-05-08T18:23:59Z)
A Case for Validation Buffer in Pessimistic Actor-Critic [1.5022206231191775]
評価誤差はベルマン値と同様の固定点モデルにより近似できることを示す。本稿では,悲観的批判が偏りのない条件を抽出するための検証ペシミズム学習(VPL)アルゴリズムを提案する。 VPLは、エージェントトレーニングを通してペシミズムのレベルを調整するために、小さなバリデーションバッファを使用し、批判対象の近似誤差を最小限に抑えるように悲観的セットをセットする。
論文参考訳（メタデータ） (2024-03-01T22:24:11Z)
LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。 LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。 LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文参考訳（メタデータ） (2023-11-15T19:52:11Z)
Towards Better Evaluation of Instruction-Following: A Case-Study in Summarization [9.686937153317809]
本研究では,多種多様なメトリクスのメタ評価を行い,大規模言語モデルの指示追従能力の精度を定量的に評価する。 riSumを用いて評価方法と人的判断の一致を分析した。
論文参考訳（メタデータ） (2023-10-12T15:07:11Z)
System-Level Natural Language Feedback [83.24259100437965]
システムレベルの設計決定を人為的なループプロセスで形式化する上で,フィードバックの活用方法を示す。検索クエリと対話応答生成を改善するために,本手法のケーススタディを2つ実施する。システムレベルのフィードバックとインスタンスレベルのフィードバックの組み合わせは、さらなる利益をもたらします。
論文参考訳（メタデータ） (2023-06-23T16:21:40Z)
The Wisdom of Hindsight Makes Language Models Better Instruction Followers [84.9120606803906]
強化学習は、人間のフィードバックによる指示に合うように、大きな言語モデルを微調整することに成功している。そこで本稿では,本論文で提案するアプローチとして,原文を緩和することでフィードバックを指導に変換する手法と,教師付き手法によるアライメント向上のためのモデルをトレーニングする手法を提案する。言語モデルと命令を整合させる新しいアルゴリズムであるHIR(Hindsight Instruction Relabeling)を提案する。
論文参考訳（メタデータ） (2023-02-10T12:16:38Z)
FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality Assessment [93.09267863425492]
競争力のあるスポーツビデオにおける行動の高レベル意味論と内部時間構造の両方を理解することが、予測を正確かつ解釈可能なものにする鍵である、と我々は主張する。本研究では,多様なダイビングイベントに対して,アクションプロシージャに関する詳細なアノテーションを付加した,ファインディビングと呼ばれる詳細なデータセットを構築した。
論文参考訳（メタデータ） (2022-04-07T17:59:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。