Fugu-MT 論文翻訳(概要): Explaining Competitive-Level Programming Solutions using LLMs

論文の概要: Explaining Competitive-Level Programming Solutions using LLMs

arxiv url: http://arxiv.org/abs/2307.05337v1
Date: Tue, 11 Jul 2023 15:26:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-12 14:24:36.759050
Title: Explaining Competitive-Level Programming Solutions using LLMs
Title（参考訳）: LLMを用いた競合レベルプログラミングソリューションの解説
Authors: Jierui Li, Szymon Tworkowski, Yingying Wu and Raymond Mooney
Abstract要約: 競合レベルのプログラミング問題を解く上では性能が劣っているにもかかわらず、最先端のLLMは、ソリューションの説明と説明に強い能力を持っていることを示す。我々の説明生成手法は、説明と分析を含む問題に対する構造化された解決説明を生成することができる。
参考スコア（独自算出の注目度）: 3.560501183771493
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we approach competitive-level programming problem-solving as a composite task of reasoning and code generation. We propose a novel method to automatically annotate natural language explanations to \textit{<problem, solution>} pairs. We show that despite poor performance in solving competitive-level programming problems, state-of-the-art LLMs exhibit a strong capacity in describing and explaining solutions. Our explanation generation methodology can generate a structured solution explanation for the problem containing descriptions and analysis. To evaluate the quality of the annotated explanations, we examine their effectiveness in two aspects: 1) satisfying the human programming expert who authored the oracle solution, and 2) aiding LLMs in solving problems more effectively. The experimental results on the CodeContests dataset demonstrate that while LLM GPT3.5's and GPT-4's abilities in describing the solution are comparable, GPT-4 shows a better understanding of the key idea behind the solution.
Abstract（参考訳）: 本稿では,推論とコード生成の複合タスクとして,競争レベルのプログラミング問題解決にアプローチする。本稿では,自然言語を<problem, solution>}ペアに自動アノテートする新しい手法を提案する。競合レベルのプログラミング問題では性能が劣るにもかかわらず、最先端のLLMは、ソリューションの説明と説明に強い能力を持っていることを示す。説明生成手法は,説明と分析を含む問題の構造化解法を生成することができる。注釈付き説明の質を評価するために,その効果を2つの側面から検討する。 1) 託宣ソリューションを作成した人間プログラミング専門家を満足させ, 2) LLM の問題解決を効果的に支援する。 CodeContestsデータセットの実験結果は、ソリューションを記述する上でLCM GPT3.5とGPT-4の能力は同等であるが、GPT-4はソリューションの背後にある重要なアイデアをよりよく理解していることを示している。

関連論文リスト

On the Effectiveness of LLM-as-a-judge for Code Generation and Summarization [54.965787768076254]
大規模言語モデルは、最近、Q&Aのような複雑な自然言語処理タスクの裁判官として活用されている。コード生成とコード要約という2つのコード関連タスクに対するLLMs-as-a-judgeの有効性について検討した。
論文参考訳（メタデータ） (2025-07-22T13:40:26Z)
Step-Wise Formal Verification for LLM-Based Mathematical Problem Solving [3.2233767737586674]
LLM(Large Language Models)は、数学的な問題を解く上で、強大な能力を示す。本稿では,形式化と批判を含むMATH-VFフレームワークを提案する。我々は,MATH500とProcessBenchという,広く利用されている数学ベンチマークの枠組みを評価した。
論文参考訳（メタデータ） (2025-05-27T08:21:07Z)
EHOP: A Dataset of Everyday NP-Hard Optimization Problems [66.41749917354159]
Everyday Hard Optimization Problems (EHOP) は、自然言語で表されるNPハード最適化問題の集合である。 EHOPには、コンピュータサイエンスの教科書で見られる問題の定式化、実生活で起こりうる問題として着飾られたバージョン、逆ルールでよく知られた問題の変種が含まれている。現状のLLMは、複数のプロンプト戦略にまたがって、実生活や逆転型よりも教科書問題を体系的に高精度に解決していることがわかった。
論文参考訳（メタデータ） (2025-02-19T14:39:59Z)
Performance Review on LLM for solving leetcode problems [7.377558533352298]
本稿では,Lietcodeのプログラミング問題に対するLLM(Large Language Models)の総合的な性能評価について述べる。我々は, GPT-4 と GPT-3.5-turbo を含む複数の LLM の解を生成する。コード生成や問題解決タスクにおける現在のLLMの長所と短所を強調した。
論文参考訳（メタデータ） (2025-02-16T08:52:45Z)
Systematic Analysis of LLM Contributions to Planning: Solver, Verifier, Heuristic [6.687149103409949]
大規模言語モデル(LLM)が計画問題の解決にどのように貢献するかを系統的に分析する。解析の結果,LLMは最適計画を生成するのが難しいが,中間/不完全解に対してフィードバック信号を提供するのがはるかに優れていることがわかった。
論文参考訳（メタデータ） (2024-12-12T18:16:46Z)
Gap-Filling Prompting Enhances Code-Assisted Mathematical Reasoning [0.0]
パターン・オブ・シント(CoT)とプログラム・オブ・シント(PoT)ファインチューニング(PoT)は、LPMの知識を小さな言語モデル(SLM)に転送する一般的な方法である。本稿では,SLMの問題解決プロセスを強化するために,新たな2段階のプロンプト戦略であるGap-Filling Prompting(GFP)を紹介する。
論文参考訳（メタデータ） (2024-11-08T08:52:59Z)
Can LLMs plan paths with extra hints from solvers? [2.874944508343474]
大規模言語モデル(LLM)は、自然言語処理、数学的問題解決、プログラム合成に関連するタスクにおいて顕著な能力を示している。本稿では,従来のロボット計画課題の解決において,解法生成フィードバックを統合することでLCM性能を向上させる手法について検討する。
論文参考訳（メタデータ） (2024-10-07T14:00:08Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
Bridging Context Gaps: Leveraging Coreference Resolution for Long Contextual Understanding [28.191029786204624]
大規模言語モデル(LLM)の性能向上を目的としたLong Question Coreference Adaptation (LQCA) 手法を提案する。このフレームワークは、長いコンテキストに合わせて調整されたコア参照解決に焦点を当てており、モデルが参照を効果的に識別し、管理することができる。このフレームワークはLLMの扱いやすいパーティションを提供し、理解を深める。
論文参考訳（メタデータ） (2024-10-02T15:39:55Z)
Navigating the Labyrinth: Evaluating and Enhancing LLMs' Ability to Reason About Search Problems [59.72548591120689]
我々は,11種類の検索問題を含む新しいベンチマークであるSearchBenchを紹介する。もっとも先進的なLCMでさえ、これらの問題をエンドツーエンドのテキストで解決することができないことを示す。 LLMにその問題を解決するコードを生成するように指示することは助けになるが、GPT4のパフォーマンスは11.7%向上した。
論文参考訳（メタデータ） (2024-06-18T00:44:58Z)
Distilling Algorithmic Reasoning from LLMs via Explaining Solution Programs [2.3020018305241337]
大きな言語モデルの推論能力を改善する効果的な方法として、明確な推論経路を蒸留する手法が登場している。本稿では, LLM から推論能力を抽出する手法を提案する。提案実験は,ReasonerがCoderによるプログラム実装をより効果的にガイドできることを示す。
論文参考訳（メタデータ） (2024-04-11T22:19:50Z)
FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。 FAC$2$E, FAC$2$Eについて述べる。
論文参考訳（メタデータ） (2024-02-29T21:05:37Z)
Do Language Models Exhibit the Same Cognitive Biases in Problem Solving as Human Learners? [140.9751389452011]
本研究では,大言語モデル(LLM)の偏りを,算術語問題を解く際に,子どもに知られているものと関連づけて検討する。我々は,これらの各テストに対して,問題特徴のきめ細かい制御を可能にするニューロシンボリックアプローチを用いて,新しい単語問題を生成する。
論文参考訳（メタデータ） (2024-01-31T18:48:20Z)
Competition-Level Problems are Effective LLM Evaluators [121.15880285283116]
本稿では,Codeforcesにおける最近のプログラミング問題の解決において,大規模言語モデル(LLM)の推論能力を評価することを目的とする。まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4の望ましくないゼロショット性能を総合的に評価する。驚くべきことに、GPT-4のTheThoughtivedのパフォーマンスは、2021年9月以降、あらゆる困難と種類の問題に対して一貫して問題が減少するような崖を経験している。
論文参考訳（メタデータ） (2023-12-04T18:58:57Z)
Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。本稿では,この新技術について概観する。
論文参考訳（メタデータ） (2023-08-06T18:38:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。