論文の概要: CPRet: A Dataset, Benchmark, and Model for Retrieval in Competitive Programming
- arxiv url: http://arxiv.org/abs/2505.12925v1
- Date: Mon, 19 May 2025 10:07:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.531054
- Title: CPRet: A Dataset, Benchmark, and Model for Retrieval in Competitive Programming
- Title(参考訳): CPRet: 競合プログラミングにおける検索のためのデータセット、ベンチマーク、モデル
- Authors: Han Deng, Yuan Meng, Shixiang Tang, Wanli Ouyang, Xinzhu Ma,
- Abstract要約: CPRetは、競合プログラミングのための検索指向ベンチマークスイートである。
2つのコード中心タスク(Text-to-CodeとCode-to-Code)と、新たに提案された2つの問題中心タスク(Issue-to-DuplicateとSimplified-to-Full)である。
私たちのコントリビューションには、高品質なトレーニングデータと、信頼性評価のための時間的に分離されたテストセットの両方が含まれています。
- 参考スコア(独自算出の注目度): 56.17331530444765
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Competitive programming benchmarks are widely used in scenarios such as programming contests and large language model assessments. However, the growing presence of duplicate or highly similar problems raises concerns not only about competition fairness, but also about the validity of competitive programming as a benchmark for model evaluation. In this paper, we propose a new problem -- similar question retrieval -- to address this issue. Due to the lack of both data and models, solving this problem is challenging. To this end, we introduce CPRet, a retrieval-oriented benchmark suite for competitive programming, covering four retrieval tasks: two code-centric (i.e., Text-to-Code and Code-to-Code) and two newly proposed problem-centric tasks (i.e., Problem-to-Duplicate and Simplified-to-Full), built from a combination of automatically crawled problem-solution data and manually curated annotations. Our contribution includes both high-quality training data and temporally separated test sets for reliable evaluation. In addition, we develop two task-specialized retrievers based on this dataset: CPRetriever-Code, trained with a novel Group-InfoNCE loss for problem-code alignment, and CPRetriever-Prob, fine-tuned for identifying problem-level similarity. Both models achieve strong results and are open-sourced for local use. Finally, we analyze LiveCodeBench and find that high-similarity problems inflate model pass rates and reduce differentiation, underscoring the need for similarity-aware evaluation in future benchmarks. Code and data are available at: https://github.com/coldchair/CPRet
- Abstract(参考訳): 競合プログラミングベンチマークは、プログラミングコンテストや大規模言語モデルアセスメントのようなシナリオで広く使用されている。
しかし、重複や非常に類似した問題の存在が増大すると、競争公正性だけでなく、モデル評価のベンチマークとしての競合プログラミングの有効性にも懸念が生じる。
本稿では,この問題に対処する新たな問題として,類似質問検索を提案する。
データとモデルの両方が欠如しているため、この問題の解決は難しい。
この目的のために、我々は、CPRetという、競合プログラミングのための検索指向ベンチマークスイートを紹介し、コード中心の2つのタスク(Text-to-CodeとCode-to-Code)と、自動クロールされた問題解決データと手動でキュレートされたアノテーションを組み合わせた2つの新しい問題中心のタスク(Issue-to-DuplicateとSimplified-to-Full)について紹介する。
私たちのコントリビューションには、高品質なトレーニングデータと、信頼性評価のための時間的に分離されたテストセットの両方が含まれています。
さらに,問題コードアライメントのための新しいGroup-InfoNCE損失をトレーニングしたCPRetriever-Codeと,問題レベルの類似性を特定するための微調整のCPRetriever-Probという2つのタスク特化レトリバーを開発する。
どちらのモデルも強力な結果が得られ、ローカル使用のためにオープンソース化されている。
最後に、LiveCodeBenchを分析し、高相似性問題はモデルパス率を減少させ、差別化を減少させ、将来のベンチマークで類似性を考慮した評価の必要性を強調する。
コードとデータは、https://github.com/coldchair/CPRet.comで入手できる。
関連論文リスト
- LeetCodeDataset: A Temporal Dataset for Robust Evaluation and Efficient Training of Code LLMs [12.412316728679167]
LeetCodeDatasetは、コード生成モデルの評価とトレーニングのための高品質なベンチマークである。
データセットと評価フレームワークはHugging FaceとGithubで公開されている。
論文 参考訳(メタデータ) (2025-04-20T15:28:16Z) - KodCode: A Diverse, Challenging, and Verifiable Synthetic Dataset for Coding [49.56049319037421]
KodCodeは、高品質で検証可能なトレーニングデータを取得するという永続的な課題に対処する、合成データセットである。
自己検証手順によって体系的に検証される質問解決テスト三つ子を含む。
このパイプラインは大規模で堅牢で多様なコーディングデータセットを生成する。
論文 参考訳(メタデータ) (2025-03-04T19:17:36Z) - CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings [70.95565672516979]
LiveCodeBenchやUSACOといった既存のベンチマークは、プライベートテストケースの可用性の欠如、特別な審査員のサポートの欠如、不整合実行環境のために不足している。
CodeEloは標準化された競合レベルのコード生成ベンチマークで、これらすべての課題に初めて効果的に対処する。
論文 参考訳(メタデータ) (2025-01-02T13:49:00Z) - Enhancing Legal Case Retrieval via Scaling High-quality Synthetic Query-Candidate Pairs [67.54302101989542]
判例検索は、ある事実記述の参照として類似した事例を提供することを目的としている。
既存の作業は主に、長いクエリを使ったケース・ツー・ケースの検索に重点を置いている。
データスケールは、既存のデータハングリーニューラルネットワークのトレーニング要件を満たすには不十分である。
論文 参考訳(メタデータ) (2024-10-09T06:26:39Z) - Estimating Difficulty Levels of Programming Problems with Pre-trained Model [18.92661958433282]
プログラミング問題の難易度は、生徒の適応学習を導く上で不可欠な基準となっている。
テキスト記述とコードの解の例から,各プログラム問題の難易度自動推定の問題を定式化する。
この問題に対処するため,テキストモダリティとコードモダリティの2つの事前学習モデルを統一モデルに分割することを提案する。
論文 参考訳(メタデータ) (2024-06-13T05:38:20Z) - Low-Cost Language Models: Survey and Performance Evaluation on Python Code Generation [0.0]
大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクで一般的な選択肢となっている。
LLMの相当な計算とメモリ要件は、限られたリソースを持つユーザーにはアクセスできないことが多い。
本稿では,資源集約型LLMの代替となる,非常に低コストなモデルに焦点をあてる。
論文 参考訳(メタデータ) (2024-04-17T08:16:48Z) - Benchmarking Video Frame Interpolation [11.918489436283748]
提案手法は,提案するWebサイトを利用して,一貫したエラーメトリクスを確立するベンチマークである。
また、合成データを利用して線形性の仮定に忠実なテストセットを提案し、コヒーレントな方法で計算効率を評価する。
論文 参考訳(メタデータ) (2024-03-25T19:13:12Z) - List-aware Reranking-Truncation Joint Model for Search and
Retrieval-augmented Generation [80.12531449946655]
本稿では,2つのタスクを同時に実行可能なRe rank-Truncation joint model(GenRT)を提案する。
GenRTは、エンコーダ-デコーダアーキテクチャに基づく生成パラダイムによるリランクとトランケーションを統合している。
提案手法は,Web検索および検索拡張LLMにおけるリランクタスクとトラルケーションタスクの両方においてSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-02-05T06:52:53Z) - FixEval: Execution-based Evaluation of Program Fixes for Programming
Problems [23.987104440395576]
FixEvalは、競合するプログラミング問題とそれに対応する修正に対して、バグの多いコードを提出するベンチマークです。
FixEvalは、モデル生成プログラム修正の正確性を評価するために、ユニットテストの広範なコレクションを提供する。
実験の結果,マッチングに基づくメトリクスは,モデル生成プログラムの修正を正確に反映しないことがわかった。
論文 参考訳(メタデータ) (2022-06-15T20:18:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。