論文の概要: CoSQA+: Pioneering the Multi-Choice Code Search Benchmark with Test-Driven Agents
- arxiv url: http://arxiv.org/abs/2406.11589v3
- Date: Wed, 19 Feb 2025 17:12:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 13:57:42.766030
- Title: CoSQA+: Pioneering the Multi-Choice Code Search Benchmark with Test-Driven Agents
- Title(参考訳): CoSQA+: テスト駆動エージェントによるマルチコースコード検索ベンチマークのパイオニア化
- Authors: Jing Gong, Yanghui Wu, Linxi Liang, Jiachi Chen, Mingwei Liu, Yanlin Wang, Zibin Zheng,
- Abstract要約: 既存のコード検索データセットには制限がある。
彼らは、主にセマンティックな理解を通じてコードを評価する人間のアノテータに依存している。
本稿では、CoSQAの高品質なクエリと複数の適切なコードとをペアリングするCoSQA+を紹介する。
- 参考スコア(独自算出の注目度): 25.861575256100153
- License:
- Abstract: Semantic code search, retrieving code that matches a given natural language query, is an important task to improve productivity in software engineering. Existing code search datasets face limitations: they rely on human annotators who assess code primarily through semantic understanding rather than functional verification, leading to potential inaccuracies and scalability issues. Additionally, current evaluation metrics often overlook the multi-choice nature of code search. This paper introduces CoSQA+, pairing high-quality queries from CoSQA with multiple suitable codes. We develop an automated pipeline featuring multiple model-based candidate selections and the novel test-driven agent annotation system. Among a single Large Language Model (LLM) annotator and Python expert annotators (without test-based verification), agents leverage test-based verification and achieve the highest accuracy of 96.4%. Through extensive experiments, CoSQA+ has demonstrated superior quality over CoSQA. Models trained on CoSQA+ exhibit improved performance. We provide the code and data at https://github.com/DeepSoftwareAnalytics/CoSQA_Plus.
- Abstract(参考訳): セマンティックコード検索(Semantic code search)は、ある自然言語クエリにマッチするコードを取得することで、ソフトウェア工学における生産性を向上させるための重要なタスクである。
既存のコード検索データセットは制限に直面している。人間のアノテータは、機能的検証よりもセマンティックな理解を通じてコードを評価し、潜在的な不正確さとスケーラビリティの問題を引き起こす。
さらに、現在の評価指標は、コード検索のマルチ選択の性質を見落としていることが多い。
本稿では,CoSQAの高品質なクエリと複数の適切なコードとをペアリングするCoSQA+を紹介する。
複数のモデルに基づく候補選択と新しいテスト駆動型エージェントアノテーションシステムを備えた自動パイプラインを開発する。
単一のLarge Language Model (LLM)アノテータと(テストベースの検証なしで)Python専門家アノテータのうち、エージェントはテストベースの検証を活用し、96.4%の精度を達成する。
広範な実験を通じて、CoSQA+はCoSQAよりも優れた品質を示している。
CoSQA+で訓練されたモデルは性能が向上した。
私たちはhttps://github.com/DeepSoftwareAnalytics/CoSQA_Plusでコードとデータを提供しています。
関連論文リスト
- UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。
私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。
我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-17T05:37:02Z) - CoReQA: Uncovering Potentials of Language Models in Code Repository Question Answering [12.431784613373523]
Code Repositoryレベルの質問応答のベンチマークであるCoReQAを紹介する。
CoReQAはGitHubのイシューと4つのプログラミング言語にまたがる176の人気のあるリポジトリからのコメントから構築された。
我々は、現在最先端のプロプライエタリおよび長期コンテキストモデルがリポジトリレベルの問題に効果的に取り組むのに苦労していることを示します。
論文 参考訳(メタデータ) (2025-01-07T00:24:07Z) - You Augment Me: Exploring ChatGPT-based Data Augmentation for Semantic Code Search [47.54163552754051]
コード検索はソフトウェア開発において重要な役割を担い、開発者は自然言語クエリを使ってコードを検索し再利用することができる。
近年,大規模言語モデル (LLM) は自然言語の理解と生成において顕著な進歩を遂げている。
本稿では,大規模言語モデルによって生成された高品質で多様な拡張データを利用する新しいアプローチChatDANCEを提案する。
論文 参考訳(メタデータ) (2024-08-10T12:51:21Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - Aligning LLMs through Multi-perspective User Preference Ranking-based Feedback for Programming Question Answering [16.394601658945625]
Code Community Question Answering (CCQA)は、プログラミング関連の問題に取り組み、ソフトウェア工学と学術研究の生産性を高める。
RLHF(Reinforcement Learning from Human Feedback)の最近の進歩は、Large Language Models(LLM)の微調整プロセスを変え、人間の振る舞いを忠実に模倣する応答を生み出している。
本稿では,マルチパースペクティブなユーザ嗜好ランク付けに基づくプログラミング質問回答(ALMupQA)に基づくALMupQA(Aligning LLMs)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-27T14:21:31Z) - ProCQA: A Large-scale Community-based Programming Question Answering Dataset for Code Search [8.700556381819267]
本稿では,StackOverflowコミュニティから抽出した大規模プログラミング質問応答データセットProCQAを紹介する。
そこで本研究では,既存の言語モデルのテキストとコード表現のアライメントを改善するために,モダリティに依存しないコントラスト付き事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-25T12:34:33Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - RoMQA: A Benchmark for Robust, Multi-evidence, Multi-answer Question
Answering [87.18962441714976]
堅牢でマルチエビデンスな質問応答(QA)のための最初のベンチマークであるRoMQAを紹介します。
我々は、最先端の大規模言語モデルをゼロショット、少数ショット、微調整設定で評価し、RoMQAが難しいことを発見した。
以上の結果から,RoMQAは大規模言語モデルにとって難しいベンチマークであり,より堅牢なQA手法を構築するための定量的なテストを提供する。
論文 参考訳(メタデータ) (2022-10-25T21:39:36Z) - CoSQA: 20,000+ Web Queries for Code Search and Question Answering [63.92224685262063]
CoSQAデータセットには、自然言語クエリとコードのペア用の20,604ラベルが含まれている。
本稿では,クエリコードマッチングを強化するために,CoCLRと呼ばれる対照的な学習手法を提案する。
我々は,CodeXGLUEを同じCodeBERTモデルで評価し,CoSQAのトレーニングにより,コード質問応答の精度が5.1%向上したことを示す。
論文 参考訳(メタデータ) (2021-05-27T15:37:21Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。