論文の概要: ConvCodeWorld: Benchmarking Conversational Code Generation in Reproducible Feedback Environments
- arxiv url: http://arxiv.org/abs/2502.19852v1
- Date: Thu, 27 Feb 2025 07:54:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:59:44.162037
- Title: ConvCodeWorld: Benchmarking Conversational Code Generation in Reproducible Feedback Environments
- Title(参考訳): ConvCodeWorld: 再現可能なフィードバック環境での会話コード生成のベンチマーク
- Authors: Hojae Han, Seung-won Hwang, Rajhans Samdani, Yuxiong He,
- Abstract要約: 大規模言語モデル(LLM)は、特に対話的な設定において、コード生成に有用であることが証明されている。
既存のコード生成ベンチマークでは、マルチターンインタラクションで発生するさまざまなフィードバックをキャプチャできない。
コード生成LLMに提供されるフィードバックの質を明示的にモデル化する新しいベンチマークのセットを提示する。
- 参考スコア(独自算出の注目度): 37.203500949798766
- License:
- Abstract: Large language models (LLMs) have proven invaluable for code generation, particularly in interactive settings. However, existing code generation benchmarks fail to capture the diverse feedback encountered in multi-turn interactions, limiting our ability to evaluate LLMs in these contexts. To address this gap, we present a set of novel benchmarks that explicitly model the quality of feedback provided to code generation LLMs. Our contributions are threefold: First, we introduce CONVCODEWORLD, a novel and reproducible environment for benchmarking interactive code generation. CONVCODEWORLD simulates 9 distinct interactive code generation scenarios while systematically combining three types of feedback: (a) compilation feedback; (b) execution feedback with varying test coverage; (c) verbal feedback generated by GPT-4o with different levels of expertise. Second, we introduce CONVCODEBENCH, a fast, static version of benchmark that uses pre-generated feedback logs, eliminating the need for costly dynamic verbal feedback generation while maintaining strong Spearman's rank correlations (0.82 to 0.99) with CONVCODEWORLD. Third, extensive evaluations of both closed-source and open-source LLMs including R1-Distill on CONVCODEWORLD reveal key insights: (a) LLM performance varies significantly based on the feedback provided; (b) Weaker LLMs, with sufficient feedback, can outperform single-turn results of state-of-the-art LLMs without feedback; (c) Training on a specific feedback combination can limit an LLM's ability to utilize unseen combinations; (d) LLMs solve problems in fewer turns (high MRR) may not solve as many problems overall (high Recall), and vice versa. All implementations and benchmarks will be made publicly available at https://huggingface.co/spaces/ConvCodeWorld/ConvCodeWorld
- Abstract(参考訳): 大規模言語モデル(LLM)は、特に対話的な設定において、コード生成に有用であることが証明されている。
しかし、既存のコード生成ベンチマークでは、マルチターンインタラクションで発生する多様なフィードバックを捉えることができず、これらのコンテキストでLLMを評価する能力は制限されています。
このギャップに対処するために、コード生成LLMに提供されるフィードバックの質を明示的にモデル化する一連の新しいベンチマークを示す。
まず、インタラクティブなコード生成をベンチマークするための、新しく再現可能な環境であるConVCODEWORLDを紹介します。
CONVCODEWORLDは、9つの異なるインタラクティブコード生成シナリオをシミュレートし、3種類のフィードバックを体系的に組み合わせます。
(a)コンパイルフィードバック
b) テストカバレッジの異なる実行フィードバック
(c) GPT-4oによる言語フィードバックは, 専門性が異なる。
第二に、ConVCODEBENCHは、ConVCODEWORLDと強いSpearmanのランク相関(0.82~0.99)を維持しながら、事前に生成したフィードバックログを使用する高速で静的なベンチマークである。
第3に、R1-Distill on CONVCODEWORLDを含むオープンソースLLMのクローズドソースおよびオープンソース両方の広範な評価は、重要な洞察を明らかにしている。
(a)LLMの性能は提供されたフィードバックによって大きく異なる。
(b)Weaker LLMは、十分なフィードバックを得て、フィードバックなしで、最先端LLMのシングルターン結果を上回ることができる。
c) 特定のフィードバックの組み合わせの訓練は、LLMが目に見えない組み合わせを利用する能力を制限することができる。
(d)LLMは、より少ないターン(高MRR)で問題を解くが、全体的な問題(高リコール)は解決できない。
すべての実装とベンチマークはhttps://huggingface.co/spaces/ConvCodeWorld/ConvCodeWorldで公開される。
関連論文リスト
- FB-Bench: A Fine-Grained Multi-Task Benchmark for Evaluating LLMs' Responsiveness to Human Feedback [33.532239489610056]
FB-Benchは、中国語の実際の使用シナリオ下での人間のフィードバックに対する大規模言語モデルの応答性を評価するために設計されたベンチマークである。
我々は,多種多様なLLMを広範囲に評価し,異なる相互作用シナリオにおける性能の顕著な変動を明らかにした。
我々の研究結果は、現在のモデルの強みと限界の両方を強調し、将来の研究に価値ある洞察と方向性を提供する。
論文 参考訳(メタデータ) (2024-10-12T07:40:01Z) - AIME: AI System Optimization via Multiple LLM Evaluators [79.03422337674664]
AIME は複数の LLM を利用した評価プロトコルであり、それぞれが独立した基準で評価を生成し、結合を通してそれらを結合する。
コード生成タスクにおける AIME のベースラインメソッドのパフォーマンスは,LeetCodeHard と HumanEval データセットの単一 LLM 評価プロトコルよりも最大 62% 高いエラー検出率,最大 16% 高い成功率で向上している。
論文 参考訳(メタデータ) (2024-10-04T04:03:24Z) - Source Code Summarization in the Era of Large Language Models [23.715005053430957]
大規模言語モデル(LLM)は、コード関連のタスクのパフォーマンスを大幅に向上させた。
本稿では,LLMにおけるコード要約の体系的および包括的研究を行う。
論文 参考訳(メタデータ) (2024-07-09T05:48:42Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - Bug In the Code Stack: Can LLMs Find Bugs in Large Python Code Stacks [1.3586572110652484]
本研究では,大規模文書から文脈情報を取得する上でのLLM(Large Language Models)の機能について検討する。
我々のベンチマークであるBug In The Code Stack (BICS)は、大規模なソースコード内の単純な構文バグを識別するLLMの能力を評価するために設計されている。
その結果,(1)検索タスクのテキストベースの環境に比べ,コードベースの環境の方が有意に困難であり,(2)異なるモデル間の性能差が大きく,(3)コンテキスト長と性能劣化との間には顕著な相関関係があることが判明した。
論文 参考訳(メタデータ) (2024-06-21T17:37:10Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language
Feedback [78.60644407028022]
我々は,大規模言語モデルのマルチターンインタラクションによる課題解決能力を評価するベンチマークであるMINTを紹介する。
LLMは一般的に、ツールと言語フィードバックの恩恵を受けます。
LLMの評価、教師あり指導ファインタニング(SIFT)、人間からのフィードバックからの強化学習(RLHF)は、一般的にマルチターン能力を損なう。
論文 参考訳(メタデータ) (2023-09-19T15:25:42Z) - Coarse-Tuning Models of Code with Reinforcement Learning Feedback [0.0]
コード上で事前訓練されたLarge Language Models (LLM) が、プログラム合成の主流のアプローチとして登場した。
コードの品質を評価する接地関数からのフィードバックを用いて、強化学習により事前学習したLLMをさらに訓練するRCCFを提案する。
論文 参考訳(メタデータ) (2023-05-25T22:09:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。