論文の概要: Explaining Competitive-Level Programming Solutions using LLMs
- arxiv url: http://arxiv.org/abs/2307.05337v1
- Date: Tue, 11 Jul 2023 15:26:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-12 14:24:36.759050
- Title: Explaining Competitive-Level Programming Solutions using LLMs
- Title(参考訳): LLMを用いた競合レベルプログラミングソリューションの解説
- Authors: Jierui Li, Szymon Tworkowski, Yingying Wu and Raymond Mooney
- Abstract要約: 競合レベルのプログラミング問題を解く上では性能が劣っているにもかかわらず、最先端のLLMは、ソリューションの説明と説明に強い能力を持っていることを示す。
我々の説明生成手法は、説明と分析を含む問題に対する構造化された解決説明を生成することができる。
- 参考スコア(独自算出の注目度): 3.560501183771493
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we approach competitive-level programming problem-solving as a
composite task of reasoning and code generation. We propose a novel method to
automatically annotate natural language explanations to \textit{<problem,
solution>} pairs. We show that despite poor performance in solving
competitive-level programming problems, state-of-the-art LLMs exhibit a strong
capacity in describing and explaining solutions. Our explanation generation
methodology can generate a structured solution explanation for the problem
containing descriptions and analysis. To evaluate the quality of the annotated
explanations, we examine their effectiveness in two aspects: 1) satisfying the
human programming expert who authored the oracle solution, and 2) aiding LLMs
in solving problems more effectively. The experimental results on the
CodeContests dataset demonstrate that while LLM GPT3.5's and GPT-4's abilities
in describing the solution are comparable, GPT-4 shows a better understanding
of the key idea behind the solution.
- Abstract(参考訳): 本稿では,推論とコード生成の複合タスクとして,競争レベルのプログラミング問題解決にアプローチする。
本稿では,自然言語を<problem, solution>}ペアに自動アノテートする新しい手法を提案する。
競合レベルのプログラミング問題では性能が劣るにもかかわらず、最先端のLLMは、ソリューションの説明と説明に強い能力を持っていることを示す。
説明生成手法は,説明と分析を含む問題の構造化解法を生成することができる。
注釈付き説明の質を評価するために,その効果を2つの側面から検討する。
1) 託宣ソリューションを作成した人間プログラミング専門家を満足させ,
2) LLM の問題解決を効果的に支援する。
CodeContestsデータセットの実験結果は、ソリューションを記述する上でLCM GPT3.5とGPT-4の能力は同等であるが、GPT-4はソリューションの背後にある重要なアイデアをよりよく理解していることを示している。
関連論文リスト
- Distilling Algorithmic Reasoning from LLMs via Explaining Solution Programs [2.3020018305241337]
大きな言語モデルの推論能力を改善する効果的な方法として、明確な推論経路を蒸留する手法が登場している。
本稿では, LLM から推論能力を抽出する手法を提案する。
提案実験は,ReasonerがCoderによるプログラム実装をより効果的にガイドできることを示す。
論文 参考訳(メタデータ) (2024-04-11T22:19:50Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Do Language Models Exhibit the Same Cognitive Biases in Problem Solving
as Human Learners? [118.37810735783991]
本研究では,大言語モデル(LLM)の偏りを,算術語問題を解く際に,子どもに知られているものと関連づけて検討する。
我々はこれらの各テストに対して,問題特徴のきめ細かい制御を可能にするニューロシンボリック手法を用いて,新しい単語問題セットを生成する。
論文 参考訳(メタデータ) (2024-01-31T18:48:20Z) - Knowledge-Aware Code Generation with Large Language Models [34.806454393643236]
大規模言語モデル(LLM)は、基本的なプログラミング問題においてよく機能する。
しかし、多様なアルゴリズムとデータ構造スキルの使用を含む複雑なタスクを扱う場合、課題に直面する。
我々はPythonプログラミングのコンテスト問題に適した知識ライブラリを開発し,知識認識コード生成の概念を紹介した。
論文 参考訳(メタデータ) (2024-01-29T08:01:22Z) - Caught in the Quicksand of Reasoning, Far from AGI Summit: Evaluating
LLMs' Mathematical and Coding Competency through Ontology-guided
Interventions [50.68293377521595]
大規模言語モデル(LLM)は論理的推論ベンチマークで顕著な結果を示した。
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
質問に対して、すべてのモデルで大幅なパフォーマンス低下を見せています。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - Competition-Level Problems are Effective LLM Evaluators [124.7648712310141]
本稿では,Codeforcesにおける最近のプログラミング問題の解決において,大規模言語モデル(LLM)の推論能力を評価することを目的とする。
まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4の望ましくないゼロショット性能を総合的に評価する。
驚くべきことに、GPT-4のTheThoughtivedのパフォーマンスは、2021年9月以降、あらゆる困難と種類の問題に対して一貫して問題が減少するような崖を経験している。
論文 参考訳(メタデータ) (2023-12-04T18:58:57Z) - Fill in the Blank: Exploring and Enhancing LLM Capabilities for Backward
Reasoning in Math Word Problems [18.69394742883921]
後方推論は数学用語の問題では 比較的未発見です
4つのSOTA LLMにおける前方推論と比較して,後方推論におけるモデルの精度は著しく低下した。
PAL-Tools はプログラム支援 LLM のアイデアを組み合わせて,外部の解法で解ける方程式の集合を生成し, 作業確認は, 前方方向の精度の高い自然検証器の可用性を活用する。
論文 参考訳(メタデータ) (2023-10-03T12:03:06Z) - Automatically Correcting Large Language Models: Surveying the landscape
of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。
これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。
本稿では,この新技術について概観する。
論文 参考訳(メタデータ) (2023-08-06T18:38:52Z) - Better patching using LLM prompting, via Self-Consistency [5.892272127970584]
自己整合性(Self-Consistency, S-C)は、問題の説明を生成する上で、エキサイティングで極めて優れたテクニックである。
本稿では,修正作業のコミットログを説明として,S-C手法のプログラム修復への応用について述べる。
我々は,MODITデータセット上で,プログラムの修正を促そうとする従来のアプローチを破って,最先端の成果を得た。
論文 参考訳(メタデータ) (2023-05-31T18:28:46Z) - Editing Large Language Models: Problems, Methods, and Opportunities [51.903537096207]
本稿では, LLMのモデル編集に関わる問題, 方法, 機会を深く探究する。
本稿では,モデル編集に関わるタスク定義と課題の概観と,現在処理中の最も進歩的な手法の詳細な実証分析について述べる。
本研究の目的は,各編集手法の有効性と実現可能性に関する貴重な知見を提供することであり,特定のタスクやコンテキストに対して,最も適切な方法の選択に関する情報決定を行う上で,コミュニティを支援することである。
論文 参考訳(メタデータ) (2023-05-22T16:00:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。