論文の概要: CoQuIR: A Comprehensive Benchmark for Code Quality-Aware Information Retrieval
- arxiv url: http://arxiv.org/abs/2506.11066v1
- Date: Sat, 31 May 2025 13:00:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.538434
- Title: CoQuIR: A Comprehensive Benchmark for Code Quality-Aware Information Retrieval
- Title(参考訳): CoQuIR: コード品質を意識した情報検索のための総合ベンチマーク
- Authors: Jiahui Geng, Fengyu Cai, Shaobo Cui, Qing Li, Liangwei Chen, Chenyang Lyu, Haonan Li, Derui Zhu, Walter Pretschner, Heinz Koeppl, Fakhri Karray,
- Abstract要約: CoQuIRは、品質を意識したコード検索を評価するために設計された、最初の大規模多言語ベンチマークである。
CoQuIRは、11のプログラミング言語で42,725のクエリと134,907のコードスニペットに対して、きめ細かい品質のアノテーションを提供する。
- 参考スコア(独自算出の注目度): 31.817325318218003
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code retrieval is essential in modern software development, as it boosts code reuse and accelerates debugging. However, current benchmarks primarily emphasize functional relevance while neglecting critical dimensions of software quality. Motivated by this gap, we introduce CoQuIR, the first large-scale, multilingual benchmark specifically designed to evaluate quality-aware code retrieval across four key dimensions: correctness, efficiency, security, and maintainability. CoQuIR provides fine-grained quality annotations for 42,725 queries and 134,907 code snippets in 11 programming languages, and is accompanied by two quality-centric evaluation metrics: Pairwise Preference Accuracy and Margin-based Ranking Score. Using CoQuIR, we benchmark 23 retrieval models, covering both open-source and proprietary systems, and find that even top-performing models frequently fail to distinguish buggy or insecure code from their more robust counterparts. Furthermore, we conduct preliminary investigations into training methods that explicitly encourage retrievers to recognize code quality. Using synthetic datasets, we demonstrate promising improvements in quality-aware metrics across various models, without sacrificing semantic relevance. Downstream code generation experiments further validate the effectiveness of our approach. Overall, our work highlights the importance of integrating quality signals into code retrieval systems, laying the groundwork for more trustworthy and robust software development tools.
- Abstract(参考訳): コードの再利用を促進し、デバッグを加速するため、コード検索は現代のソフトウェア開発において不可欠である。
しかしながら、現在のベンチマークは主に、ソフトウェア品質の重要な側面を無視しながら、機能的関連性を強調しています。
このギャップに触発されたCoQuIRは,4つの重要な側面 – 正確性,効率性,セキュリティ,保守性 – にわたって品質を意識したコード検索を評価するために設計された,最初の大規模多言語ベンチマークである。
CoQuIRは、11のプログラミング言語で42,725のクエリと134,907のコードスニペットに対してきめ細かい品質アノテーションを提供しており、Pairwise Preference AccuracyとMarginベースの Ranking Scoreという2つの品質中心の評価指標が付属している。
CoQuIRを使って23の検索モデルをベンチマークし、オープンソースのシステムとプロプライエタリなシステムの両方をカバーする。
さらに,検索者に対してコード品質の認識を促す訓練手法についても予備調査を行った。
合成データセットを用いて、セマンティックな関連性を犠牲にすることなく、様々なモデルにまたがる品質に配慮したメトリクスの有望な改善を実証する。
下流のコード生成実験は、我々のアプローチの有効性をさらに検証します。
私たちの研究は、コード検索システムに品質信号を統合することの重要性を強調し、より信頼性が高く堅牢なソフトウェア開発ツールの基礎を築き上げています。
関連論文リスト
- Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - CPRet: A Dataset, Benchmark, and Model for Retrieval in Competitive Programming [56.17331530444765]
CPRetは、競合プログラミングのための検索指向ベンチマークスイートである。
2つのコード中心タスク(Text-to-CodeとCode-to-Code)と、新たに提案された2つの問題中心タスク(Issue-to-DuplicateとSimplified-to-Full)である。
私たちのコントリビューションには、高品質なトレーニングデータと、信頼性評価のための時間的に分離されたテストセットの両方が含まれています。
論文 参考訳(メタデータ) (2025-05-19T10:07:51Z) - Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z) - On Iterative Evaluation and Enhancement of Code Quality Using GPT-4o [1.5960340244043023]
本稿では,Large Language Models (LLM) を利用したコード品質の反復評価と向上のための新しいフレームワークであるCodeQUESTを紹介する。
フレームワークは2つの主要なコンポーネントに分割されている。10次元にわたるコード品質を評価し、定量スコアと定性的な要約の両方を提供する評価器。
本研究は,CodeQUESTが既存のコード品質指標と整合して,コード品質を効果的かつ堅牢に評価できることを実証する。
論文 参考訳(メタデータ) (2025-02-11T09:27:00Z) - How Should We Build A Benchmark? Revisiting 274 Code-Related Benchmarks For LLMs [60.25940747590386]
本稿では,コード関連ベンチマークの開発を包括的に管理するためのガイドラインとして,55の基準チェックリストからなるHow2Benchを提案する。
私たちは過去10年以内にリリースされた274のベンチマークをプロファイルし、問題を見つけました。
ベンチマークの70%近くはデータ品質保証の措置を取らず、10%以上がオープンソースでも、部分的にはオープンソースでもなかった。
論文 参考訳(メタデータ) (2025-01-18T09:51:57Z) - The Fault in our Stars: Quality Assessment of Code Generation Benchmarks [0.5137309756089941]
我々は、異なるコード生成モデルの性能を比較するために使用されるベンチマークの中で、プロンプトの品質について、第一種研究を行う。
9つのコード生成ベンチマークから3,566のプロンプトを分析し、その中の品質問題を特定した。
論文 参考訳(メタデータ) (2024-04-15T22:02:58Z) - Enhancing Code Intelligence Tasks with ChatGPT [17.712126698173535]
ChatGPTの生成したコメントは、人間の参照よりもコードに対するセマンティックな一貫性が優れていることを示している。
広く使われているデータセットであるCodeSearchNetを、ChatGPTで生成されたコメントで再構築します。
以上の結果から,ChatGPTによって事前訓練されたモデルは,コード要約,コード生成,コード翻訳タスクにおいて,そのモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-12-23T09:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。