Fugu-MT 論文翻訳(概要): CoSQA+: Pioneering the Multi-Choice Code Search Benchmark with Test-Driven Agents

論文の概要: CoSQA+: Pioneering the Multi-Choice Code Search Benchmark with Test-Driven Agents

arxiv url: http://arxiv.org/abs/2406.11589v4
Date: Thu, 20 Feb 2025 03:41:23 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-21 13:23:53.211376
Title: CoSQA+: Pioneering the Multi-Choice Code Search Benchmark with Test-Driven Agents
Title（参考訳）: CoSQA+: テスト駆動エージェントによるマルチコースコード検索ベンチマークのパイオニア化
Authors: Jing Gong, Yanghui Wu, Linxi Liang, Yanlin Wang, Jiachi Chen, Mingwei Liu, Zibin Zheng,
Abstract要約: 既存のコード検索データセットには制限がある。彼らは、主にセマンティックな理解を通じてコードを評価する人間のアノテータに依存している。本稿では、CoSQAの高品質なクエリと複数の適切なコードとをペアリングするCoSQA+を紹介する。
参考スコア（独自算出の注目度）: 25.861575256100153
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Semantic code search, retrieving code that matches a given natural language query, is an important task to improve productivity in software engineering. Existing code search datasets face limitations: they rely on human annotators who assess code primarily through semantic understanding rather than functional verification, leading to potential inaccuracies and scalability issues. Additionally, current evaluation metrics often overlook the multi-choice nature of code search. This paper introduces CoSQA+, pairing high-quality queries from CoSQA with multiple suitable codes. We develop an automated pipeline featuring multiple model-based candidate selections and the novel test-driven agent annotation system. Among a single Large Language Model (LLM) annotator and Python expert annotators (without test-based verification), agents leverage test-based verification and achieve the highest accuracy of 96.4%. Through extensive experiments, CoSQA+ has demonstrated superior quality over CoSQA. Models trained on CoSQA+ exhibit improved performance. We provide the code and data at https://github.com/DeepSoftwareAnalytics/CoSQA_Plus.
Abstract（参考訳）: セマンティックコード検索(Semantic code search)は、ある自然言語クエリにマッチするコードを取得することで、ソフトウェア工学における生産性を向上させるための重要なタスクである。既存のコード検索データセットは制限に直面している。人間のアノテータは、機能的検証よりもセマンティックな理解を通じてコードを評価し、潜在的な不正確さとスケーラビリティの問題を引き起こす。さらに、現在の評価指標は、コード検索のマルチ選択の性質を見落としていることが多い。本稿では,CoSQAの高品質なクエリと複数の適切なコードとをペアリングするCoSQA+を紹介する。複数のモデルに基づく候補選択と新しいテスト駆動型エージェントアノテーションシステムを備えた自動パイプラインを開発する。単一のLarge Language Model (LLM)アノテータと(テストベースの検証なしで)Python専門家アノテータのうち、エージェントはテストベースの検証を活用し、96.4%の精度を達成する。広範な実験を通じて、CoSQA+はCoSQAよりも優れた品質を示している。 CoSQA+で訓練されたモデルは性能が向上した。私たちはhttps://github.com/DeepSoftwareAnalytics/CoSQA_Plusでコードとデータを提供しています。

関連論文リスト

CLARC: C/C++ Benchmark for Robust Code Search [2.225731679677886]
現実のGitHubリポジトリから構築されたC/C++ベンチマークであるCLARCを紹介します。 Clarcには、評価用の1,245のクエリコードペアと、トレーニング用の5,472のペアが含まれている。
論文参考訳（メタデータ） (2026-03-04T18:57:37Z)
SWE-QA: Can Language Models Answer Repository-level Code Questions? [23.0514975768053]
SWE-QAは、現実的なコード環境における自動QAシステムの研究を容易にするために設計された、リポジトリレベルのコード質問応答(QA)ベンチマークである。 SWE-QAは、意図的理解、クロスファイル推論、マルチホップ依存分析など、さまざまなカテゴリにまたがる576の高品質な質問応答ペアを含んでいる。エージェントフレームワークであるSWE-QA-Agentを開発した。
論文参考訳（メタデータ） (2025-09-18T05:25:32Z)
The benefits of query-based KGQA systems for complex and temporal questions in LLM era [55.20230501807337]
大規模言語モデルは質問回答(QA)に優れていますが、マルチホップ推論や時間的質問には苦戦しています。クエリベースの知識グラフ QA (KGQA) は、直接回答の代わりに実行可能なクエリを生成するモジュール形式の代替手段を提供する。 WikiData QAのためのマルチステージクエリベースのフレームワークについて検討し、課題のあるマルチホップと時間ベンチマークのパフォーマンスを向上させるマルチステージアプローチを提案する。
論文参考訳（メタデータ） (2025-07-16T06:41:03Z)
CoQuIR: A Comprehensive Benchmark for Code Quality-Aware Information Retrieval [31.817325318218003]
CoQuIRは、品質を意識したコード検索を評価するために設計された、最初の大規模多言語ベンチマークである。 CoQuIRは、11のプログラミング言語で42,725のクエリと134,907のコードスニペットに対して、きめ細かい品質のアノテーションを提供する。
論文参考訳（メタデータ） (2025-05-31T13:00:17Z)
KodCode: A Diverse, Challenging, and Verifiable Synthetic Dataset for Coding [49.56049319037421]
KodCodeは、高品質で検証可能なトレーニングデータを取得するという永続的な課題に対処する、合成データセットである。自己検証手順によって体系的に検証される質問解決テスト三つ子を含む。このパイプラインは大規模で堅牢で多様なコーディングデータセットを生成する。
論文参考訳（メタデータ） (2025-03-04T19:17:36Z)
CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文参考訳（メタデータ） (2024-11-19T16:54:45Z)
You Augment Me: Exploring ChatGPT-based Data Augmentation for Semantic Code Search [47.54163552754051]
コード検索はソフトウェア開発において重要な役割を担い、開発者は自然言語クエリを使ってコードを検索し再利用することができる。近年,大規模言語モデル (LLM) は自然言語の理解と生成において顕著な進歩を遂げている。本稿では,大規模言語モデルによって生成された高品質で多様な拡張データを利用する新しいアプローチChatDANCEを提案する。
論文参考訳（メタデータ） (2024-08-10T12:51:21Z)
Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。最新のUQベースラインの集合を実装した新しいベンチマークを導入する。我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文参考訳（メタデータ） (2024-06-21T20:06:31Z)
Aligning LLMs through Multi-perspective User Preference Ranking-based Feedback for Programming Question Answering [16.394601658945625]
Code Community Question Answering (CCQA)は、プログラミング関連の問題に取り組み、ソフトウェア工学と学術研究の生産性を高める。 RLHF(Reinforcement Learning from Human Feedback)の最近の進歩は、Large Language Models(LLM)の微調整プロセスを変え、人間の振る舞いを忠実に模倣する応答を生み出している。本稿では,マルチパースペクティブなユーザ嗜好ランク付けに基づくプログラミング質問回答(ALMupQA)に基づくALMupQA(Aligning LLMs)という新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-05-27T14:21:31Z)
ProCQA: A Large-scale Community-based Programming Question Answering Dataset for Code Search [8.700556381819267]
本稿では,StackOverflowコミュニティから抽出した大規模プログラミング質問応答データセットProCQAを紹介する。そこで本研究では,既存の言語モデルのテキストとコード表現のアライメントを改善するために,モダリティに依存しないコントラスト付き事前学習手法を提案する。
論文参考訳（メタデータ） (2024-03-25T12:34:33Z)
Can LLMs Evaluate Complex Attribution in QA? Automatic Benchmarking using Knowledge Graphs [33.87001216244801]
Attributed Question Answering (AQA) は注目されているが、その属性を評価するにはいくつかの制限がある。本稿では,包括的帰属カテゴリを含む大規模ベンチマークであるCAQAを紹介する。我々はCAQAの有効性を検証するための広範囲な実験を行った。
論文参考訳（メタデータ） (2024-01-26T04:11:07Z)
Enhancing Code Intelligence Tasks with ChatGPT [17.712126698173535]
ChatGPTの生成したコメントは、人間の参照よりもコードに対するセマンティックな一貫性が優れていることを示している。広く使われているデータセットであるCodeSearchNetを、ChatGPTで生成されたコメントで再構築します。以上の結果から,ChatGPTによって事前訓練されたモデルは,コード要約,コード生成,コード翻訳タスクにおいて,そのモデルよりも優れていた。
論文参考訳（メタデータ） (2023-12-23T09:01:08Z)
SQUARE: Automatic Question Answering Evaluation using Multiple Positive and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文参考訳（メタデータ） (2023-09-21T16:51:30Z)
Synthesizing Conjunctive Queries for Code Search [9.146394499214672]
Squidは、ターゲットパターンでコードを探すための新しい結合型クエリアルゴリズムである。 Squidは全てのタスクの接続クエリをうまく合成し、平均で2.56秒しかかからない。
論文参考訳（メタデータ） (2023-05-07T15:54:10Z)
Generation-Augmented Query Expansion For Code Retrieval [51.20943646688115]
本稿では,次世代のクエリ拡張フレームワークを提案する。人間の検索プロセスにインスパイアされた – 検索前に回答をスケッチする。 CodeSearchNetベンチマークで、最先端の新たな結果を得る。
論文参考訳（メタデータ） (2022-12-20T23:49:37Z)
RoMQA: A Benchmark for Robust, Multi-evidence, Multi-answer Question Answering [87.18962441714976]
堅牢でマルチエビデンスな質問応答(QA)のための最初のベンチマークであるRoMQAを紹介します。我々は、最先端の大規模言語モデルをゼロショット、少数ショット、微調整設定で評価し、RoMQAが難しいことを発見した。以上の結果から,RoMQAは大規模言語モデルにとって難しいベンチマークであり,より堅牢なQA手法を構築するための定量的なテストを提供する。
論文参考訳（メタデータ） (2022-10-25T21:39:36Z)
Enhancing Semantic Code Search with Multimodal Contrastive Learning and Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文参考訳（メタデータ） (2022-04-07T08:49:27Z)
Learning Deep Semantic Model for Code Search using CodeSearchNet Corpus [17.6095840480926]
マルチモーダル・ソースのユーティリティを利用する新しいディープ・セマンティック・モデルを提案する。提案したモデルを適用して,意味的コード検索に関するCodeSearchNetの課題に対処する。我々のモデルはCodeSearchNetコーパスでトレーニングされ、ホールドアウトデータに基づいて評価され、最終モデルは0.384 NDCGに達し、このベンチマークで優勝した。
論文参考訳（メタデータ） (2022-01-27T04:15:59Z)
CodeRetriever: Unimodal and Bimodal Contrastive Learning [128.06072658302165]
関数レベルのコードセマンティック表現を訓練するために,一様および二様のコントラスト学習を組み合わせたCodeRetrieverモデルを提案する。ノンモーダルなコントラスト学習のために、文書と関数名に基づいてポジティブなコードペアを構築するためのセマンティックガイド付き手法を設計する。バイモーダルなコントラスト学習では、コードのドキュメンテーションとインラインコメントを活用して、テキストコードペアを構築します。
論文参考訳（メタデータ） (2022-01-26T10:54:30Z)
CoSQA: 20,000+ Web Queries for Code Search and Question Answering [63.92224685262063]
CoSQAデータセットには、自然言語クエリとコードのペア用の20,604ラベルが含まれている。本稿では,クエリコードマッチングを強化するために,CoCLRと呼ばれる対照的な学習手法を提案する。我々は,CodeXGLUEを同じCodeBERTモデルで評価し,CoSQAのトレーニングにより,コード質問応答の精度が5.1%向上したことを示す。
論文参考訳（メタデータ） (2021-05-27T15:37:21Z)
COSEA: Convolutional Code Search with Layer-wise Attention [90.35777733464354]
我々は、畳み込みニューラルネットワークを階層的注意で活用し、コード固有の構造論理をキャプチャする新しいディープラーニングアーキテクチャ、COSEAを提案する。 COSEAは、コード検索タスクの最先端メソッドよりも大幅に改善できる。
論文参考訳（メタデータ） (2020-10-19T13:53:38Z)
Generating Diverse and Consistent QA pairs from Contexts with Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文参考訳（メタデータ） (2020-05-28T08:26:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。