Fugu-MT 論文翻訳(概要): CRUXEval: A Benchmark for Code Reasoning, Understanding and Execution

論文の概要: CRUXEval: A Benchmark for Code Reasoning, Understanding and Execution

arxiv url: http://arxiv.org/abs/2401.03065v1
Date: Fri, 5 Jan 2024 20:53:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-09 20:49:07.145158
Title: CRUXEval: A Benchmark for Code Reasoning, Understanding and Execution
Title（参考訳）: CRUXEval: コードの推論、理解、実行のためのベンチマーク
Authors: Alex Gu, Baptiste Rozi\`ere, Hugh Leather, Armando Solar-Lezama, Gabriel Synnaeve, Sida I. Wang
Abstract要約: 800のPython関数(3-13行)からなるベンチマークを示す。各関数は入力出力対を持ち、入力予測と出力予測という2つの自然なタスクに繋がる。単純なCoTと微調整方式によってベンチマークのパフォーマンスが向上するが、その解決には程遠いことを示す。
参考スコア（独自算出の注目度）: 36.30158138035512
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present CRUXEval (Code Reasoning, Understanding, and eXecution Evaluation), a benchmark consisting of 800 Python functions (3-13 lines). Each function comes with an input-output pair, leading to two natural tasks: input prediction and output prediction. First, we propose a generic recipe for generating our execution benchmark which can be used to create future variation of the benchmark. Second, we evaluate twenty code models on our benchmark and discover that many recent high-scoring models on HumanEval do not show the same improvements on our benchmark. Third, we show that simple CoT and fine-tuning schemes can improve performance on our benchmark but remain far from solving it. The best setup, GPT-4 with chain of thought (CoT), achieves a pass@1 of 75% and 81% on input and output prediction, respectively. In contrast, Code Llama 34B achieves a pass@1 of 50% and 46% on input and output prediction, highlighting the gap between open and closed source models. As no model is close to acing CRUXEval, we provide examples of consistent GPT-4 failures on simple programs as a lens into its code reasoning capabilities and areas for improvement.
Abstract（参考訳）: 800のPython関数(3-13行)からなるベンチマークであるCRUXEval(Code Reasoning, Understanding, and eXecution Evaluation)を紹介する。各関数は入出力ペアを持ち、入力予測と出力予測という2つの自然なタスクに繋がる。まず、ベンチマークの将来のバリエーションを作成するために使用できる実行ベンチマークを生成するための一般的なレシピを提案する。第2に、ベンチマークで20のコードモデルを評価し、最近のHumanEvalのハイスコアモデルの多くがベンチマークで同様の改善を示さないことを発見した。第3に、単純なCoTと微調整方式によってベンチマークのパフォーマンスが向上するが、解決には程遠いことを示す。最善の設定であるgpt-4 with chain of thought (cot)は、入力と出力の予測でそれぞれ75%と81%のpass@1を達成している。対照的に、コードllama 34bは、入力と出力の予測において50%と46%のpass@1を達成し、オープンとクローズドソースモデルのギャップを強調している。 CRUXEvalを強制するモデルが存在しないので、コード推論機能と改善のための領域のレンズとして、単純なプログラムで一貫したGPT-4障害の例を示します。

関連論文リスト

CodeReasoner: Enhancing the Code Reasoning Ability with Reinforcement Learning [8.197518276987989]
コード推論は、コードドメインにおける大きな言語モデル(LLM)の基本的な機能である。それまでのアプローチは、主にコード推論タスクのパフォーマンスを改善するために教師付き微調整に依存していた。これはトレーニングデータの低品質と教師付き微調整の制限という2つの中核的な問題によるものです。データセット構築と2段階のトレーニングプロセスの両方にまたがるフレームワークであるCodeReasonerを提案する。
論文参考訳（メタデータ） (2025-07-23T14:26:58Z)
Value-Guided Search for Efficient Chain-of-Thought Reasoning [43.99559903458839]
1.5Bトークンレベルの値モデルをトレーニングし、DeepSeekモデルに適用して、テスト時間計算のスケーリングによるパフォーマンス向上を実現します。推論予算は64世代で、DeepSeek-R1-Distill-1.5BのVGSは4つのベンチマークで平均45.7%の精度を達成している。
論文参考訳（メタデータ） (2025-05-23T01:05:07Z)
Output Scaling: YingLong-Delayed Chain of Thought in a Large Pretrained Time Series Forecasting Model [55.25659103706409]
このフレームワークは,設計した基盤モデルであるYingLongの最先端性能を実現する。 YingLongは、マスク付きトークンリカバリによってトレーニングされた非因果的双方向アテンションエンコーダのみのトランスフォーマーである。我々は、6Mから3Mパラメータの4つの基礎モデルをリリースし、ゼロショットタスクにおいて優れた結果を示す。
論文参考訳（メタデータ） (2025-05-20T14:31:06Z)
S*: Test Time Scaling for Code Generation [55.11863577956177]
コード生成のための最初のハイブリッドテストタイムスケーリングフレームワークであるS*を提案する。 S*は生成されたコードのカバレッジと選択精度を大幅に改善する。
論文参考訳（メタデータ） (2025-02-20T09:18:53Z)
EquiBench: Benchmarking Code Reasoning Capabilities of Large Language Models via Equivalence Checking [54.354203142828084]
本稿では,大規模言語モデルのコード推論能力を評価する新しい手法として等価チェックの課題を提案する。 EquiBenchは、4つのプログラミング言語と6つの等価カテゴリにまたがる2400のプログラムペアのデータセットである。その結果,OpenAI o3-miniの精度は78.0%と高いことがわかった。
論文参考訳（メタデータ） (2025-02-18T02:54:25Z)
Entropy Adaptive Decoding: Dynamic Model Switching for Efficient Inference [0.0]
本稿では,効率的な言語モデル推論のための新しいアプローチであるEntropy Adaptive Decoding (EAD)を提案する。 EADは予測の不確実性に基づいて、異なるサイズのモデル間で切り替える。異なるモデルファミリー間で顕著な効率向上を示す。
論文参考訳（メタデータ） (2025-02-05T22:15:21Z)
Preference Optimization for Reasoning with Pseudo Feedback [100.62603571434167]
提案手法では,解のラベル付けを関連するテストケースに対する評価として行うことで,推論タスクに対する疑似フィードバックを生成する手法を提案する。本研究では,擬似フィードバックを優先最適化に用いる数学的推論と符号化の両タスクについて実験を行い,両タスク間の改善を観察する。
論文参考訳（メタデータ） (2024-11-25T12:44:02Z)
QLoRA: Efficient Finetuning of Quantized LLMs [66.58009990713134]
我々は,48GBのGPU上で65Bパラメータモデルを微調整するのに十分なメモリ使用量を削減する,効率的な微調整手法QLoRAを提案する。 QLoRAは凍結した4ビット量子化事前学習言語モデルを通して低ランクアダプタ(LoRA)に逆伝搬する最高のモデルファミリであるGuanacoは、Vicunaベンチマークでリリースされたすべてのモデルより優れています。
論文参考訳（メタデータ） (2023-05-23T17:50:33Z)
GROOT: Corrective Reward Optimization for Generative Sequential Labeling [10.306943706927004]
テキストシーケンスの生成的リワード最適化のためのフレームワークであるGROOTを提案する。 GROOTは生成逐次ラベリングモデルをトレーニングして、デコーダ出力分布と(ブラックボックス)報酬関数の値とを一致させる。 4つの公開ベンチマークで広範な実験によって示されたように、GROOTはすべての報酬指標を大幅に改善する。
論文参考訳（メタデータ） (2022-09-29T11:35:47Z)
When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。精度を向上させるために,2つの軽量モジュールを提案する。 DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。 QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文参考訳（メタデータ） (2021-05-27T13:51:42Z)
Out-of-Vocabulary Entities in Link Prediction [1.9036571490366496]
リンク予測はしばしば、埋め込みの品質を評価するプロキシとして使用される。ベンチマークはアルゴリズムの公正な比較に欠かせないため、より良いソリューションを開発するための確固たる基盤を提供するため、その品質が確実に確保される。我々は、そのようなエンティティの発見と削除のためのアプローチの実装を提供し、データセットWN18RR、FB15K-237、YAGO3-10の修正版を提供する。
論文参考訳（メタデータ） (2021-05-26T12:58:18Z)
Towards More Fine-grained and Reliable NLP Performance Prediction [85.78131503006193]
NLPタスクのパフォーマンス予測の改善に2つの貢献をしている。まず,F1やBLEUのような総合的な精度測定のための性能予測器について検討する。次に,信頼区間とキャリブレーションの2つの角度から性能予測モデルの信頼性を理解する手法を提案する。
論文参考訳（メタデータ） (2021-02-10T15:23:20Z)
Heuristic Semi-Supervised Learning for Graph Generation Inspired by Electoral College [80.67842220664231]
本稿では,新たなノードやエッジを自動的に拡張して,高密度サブグラフ内のラベル類似性を向上する,新しい前処理手法であるElectoral College(ELCO)を提案する。テストされたすべての設定において、我々の手法はベースモデルの平均スコアを4.7ポイントの広いマージンで引き上げるとともに、常に最先端のモデルよりも優れています。
論文参考訳（メタデータ） (2020-06-10T14:48:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。