Fugu-MT 論文翻訳(概要): Evaluating the Generalization Capabilities of Large Language Models on Code Reasoning

論文の概要: Evaluating the Generalization Capabilities of Large Language Models on Code Reasoning

arxiv url: http://arxiv.org/abs/2504.05518v1
Date: Mon, 07 Apr 2025 21:25:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-17 03:36:08.893159
Title: Evaluating the Generalization Capabilities of Large Language Models on Code Reasoning
Title（参考訳）: コード推論に基づく大規模言語モデルの一般化能力の評価
Authors: Rem Yang, Julian Dai, Nikos Vasilakis, Martin Rinard,
Abstract要約: 大規模言語モデル(LLM)のコード推論能力が,プログラムの種類によってどのように一般化されるかを評価する。そこで本研究では,異なる特性を持つ配当プログラムと配当プログラムの取得手法を提案する。また,これらのプログラムの性能を比較することで,LLMの一般化を評価する実験手法を提案する。
参考スコア（独自算出の注目度）: 3.7021843299622086
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We assess how the code reasoning abilities of large language models (LLMs) generalize to different kinds of programs. We present techniques for obtaining in- and out-of-distribution programs with different characteristics: code sampled from a domain-specific language, code automatically generated by an LLM, code collected from competitive programming contests, and mutated versions of these programs. We also present an experimental methodology for evaluating LLM generalization by comparing their performance on these programs. We perform an extensive evaluation across 10 state-of-the-art models from the past year, obtaining insights into their generalization capabilities over time and across different classes of programs. Our results highlight that while earlier models exhibit behavior consistent with pattern matching, the latest models exhibit strong generalization abilities on code reasoning.
Abstract（参考訳）: 大規模言語モデル(LLM)のコード推論能力が,プログラムの種類によってどのように一般化されるかを評価する。本稿では,ドメイン固有言語からサンプルされたコード,LLMによって自動生成されるコード,競合するプログラミングコンテストから収集されたコード,プログラムの変異バージョンなど,異なる特徴を持つイン・オブ・アウト・ディストリビューション・プログラムを得るためのテクニックを提案する。また,これらのプログラムの性能を比較することで,LLMの一般化を評価する実験手法を提案する。我々は過去1年間に10の最先端モデルに対して広範囲に評価を行い、その一般化能力について、時間とともに、またプログラムの様々なクラスにわたって洞察を得ることができた。以上の結果から,従来のモデルはパターンマッチングと一致した動作を示すが,最新のモデルはコード推論に強い一般化能力を示すことがわかった。

関連論文リスト

CodeEval: A pedagogical approach for targeted evaluation of code-trained Large Language Models [0.0]
大規模言語モデル(LLM)は、その常識的推論、言語理解、論理的推論能力に基づいて主に評価される。既存のベンチマークデータセットは、特定の強度と弱点を特定できない。我々は,Python プログラミングの 24 つの異なる側面にわたる LLM を厳格に評価するために設計された多次元ベンチマークデータセットである CodeEval を紹介した。
論文参考訳（メタデータ） (2026-01-06T21:42:01Z)
Compressed code: the hidden effects of quantization and distillation on programming tokens [0.0]
大規模言語モデル(LLM)は例外的なコード生成機能を示しているが、トークンレベルのメカニズムはいまだ検討されていない。本稿では,明示的なプロンプトを必要とせず,モデル行動に関する洞察を提供する,新しいコールドスタート確率解析手法を提案する。本稿では,異なるモデル最適化手法がトークンレベルの表現とコード生成品質にどのように影響するかを包括的に評価する。
論文参考訳（メタデータ） (2026-01-05T21:32:47Z)
Cross-Task Benchmarking and Evaluation of General-Purpose and Code-Specific Large Language Models [3.603673783661375]
大規模言語モデル(LLM)は、一般的な自然言語処理と、コード合成、法的推論、財務といったドメイン固有のアプリケーションの両方に革命をもたらした。そこで本研究では,6つのベンチマークで5つの汎用および3つのコード固有LLMの総合評価を行った。コードに最適化されたモデル(例えば、CodeLLaMAの変種)は強力な推論と構文的精度を示し、非コーディングタスクでも測定可能な性能向上を示す。
論文参考訳（メタデータ） (2025-12-04T11:06:33Z)
MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks [56.34018316319873]
我々は,最新のLLMをロシア語で評価するためのベンチマークであるMERA Codeを提案する。このベンチマークには、8つのプログラミング言語にまたがる11の評価タスクが含まれている。我々はオープンなLLMとフロンティアAPIモデルを評価し、非英語言語における実用的なコーディングタスクの観点からそれらの制限を分析した。
論文参考訳（メタデータ） (2025-07-16T14:31:33Z)
From Reasoning to Code: GRPO Optimization for Underrepresented Languages [0.7864304771129751]
本稿では,Qwen 2.5モデルの小型コードバージョンとグループ相対ポリシー最適化を組み合わせた一般化可能なアプローチを提案する。推論によるフィードバックを直接強化学習ループに統合することにより、論理的に一貫性があり、構文的に正確なコードを生成する。
論文参考訳（メタデータ） (2025-05-20T11:28:48Z)
A Multi-Language Perspective on the Robustness of LLM Code Generation [2.580765958706854]
我々は、いくつかの顕著なコード生成モデルの堅牢性を評価するために、包括的な比較分析を行う。プロンプトの4つの重要な領域、DocString、関数名、構文、フォーマットに摂動を導入する。本研究は,様々なシナリオにおけるコード生成モデルの性能に光を当て,実験結果を示す。
論文参考訳（メタデータ） (2025-04-27T05:00:21Z)
ProBench: Benchmarking Large Language Models in Competitive Programming [44.09445715541973]
競合プログラミングにおける大規模言語モデル(LLM)のベンチマークを行うためにProBenchを提案する。 ProBenchはCodeforces、Luogu、Nowcoderプラットフォームから包括的な競合プログラミング問題を収集している。我々は,思考連鎖解析,誤り型診断,推論深度評価など,多次元の競合プログラミングにおける9つの最新のLCMを評価した。
論文参考訳（メタデータ） (2025-02-28T09:12:42Z)
SURGE: On the Potential of Large Language Models as General-Purpose Surrogate Code Executors [5.247363735860479]
大規模言語モデル(LLM)は、コードに関連するタスクにおいて顕著な機能を示した。 LLMが多様なプログラムを理解し処理する能力を考えると、汎用的なサロゲートモデルを構築する上で有望な方向性を示す。 SURGEは、1160ドル(約1万1000円)の価格問題で、8ドル(約8万3000円)の鍵となる側面をカバーしたベンチマークです。オープンソースおよびプロプライエタリ LLM の実証分析を通じて,スケーリング法則,データ効率,予測精度を検討した。
論文参考訳（メタデータ） (2025-02-16T15:38:19Z)
OLMES: A Standard for Language Model Evaluations [64.85905119836818]
OLMESは、再現可能な言語モデル評価のための文書化された、実用的な、オープンな標準である。これは、複数の質問の非自然的な「閉じた」定式化を必要とする小さなベースモデル間の有意義な比較をサポートする。 OLMESには、既存の文献の結果によってガイドされた、よく考えられたドキュメント化されたレコメンデーションと、オープンな質問を解決する新しい実験が含まれている。
論文参考訳（メタデータ） (2024-06-12T17:37:09Z)
Automating Patch Set Generation from Code Review Comments Using Large Language Models [2.045040820541428]
5つの人気のあるLarge Language Model(LLM)にコードコンテキストを提供します。実世界のコードレビューコメントから提案したコード変更(パッチセット)を得る。生成したパッチセットを人為的なパッチセットの履歴データと比較することにより、各モデルの性能を慎重に評価する。
論文参考訳（メタデータ） (2024-04-10T02:46:08Z)
The Program Testing Ability of Large Language Models for Code [27.590499335039972]
CodeXやCodeT5+のようなコードのための大きな言語モデル(LLM)は、コードインテリジェンスを達成する上で大きな可能性を実証しています。本稿では、これらのモデルの興味深い特性のシリーズを示し、LLMのプログラムテスト能力をいかに改善できるかを示す。
論文参考訳（メタデータ） (2023-10-09T13:55:45Z)
L2CEval: Evaluating Language-to-Code Generation Capabilities of Large Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文参考訳（メタデータ） (2023-09-29T17:57:00Z)
LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。 LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文参考訳（メタデータ） (2023-02-16T18:23:22Z)
Coder Reviewer Reranking for Code Generation [56.80381384717]
本稿では,コード言語モデルから多様なプログラムを抽出し,モデル確率で再ランク付けする手法として,Coder-Reviewerの再ランク付けを提案する。実験の結果、Coder-Reviewerのリランクは、Coderモデルのみのリランクよりも一貫性と大幅な改善をもたらすことが示された。 Coder-Reviewerのリランクは、プロンプトによって実装が容易で、異なるプログラミング言語に一般化でき、既定のハイパーパラメータとうまく機能する。
論文参考訳（メタデータ） (2022-11-29T18:56:33Z)
On the Compositional Generalization Gap of In-Context Learning [73.09193595292233]
In-distriion (ID) と Out-of-distriion (OOD) の相違について考察する。我々は,3つの意味解析データセットを用いて,OPT,BLOOM,CodeGen,Codexの4つのモデルファミリを評価する。
論文参考訳（メタデータ） (2022-11-15T19:56:37Z)
Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。これらのデータセットは10以上のプログラミング言語をカバーする。コード生成モデルの性能を多言語で評価することができる。
論文参考訳（メタデータ） (2022-10-26T17:17:06Z)
Twist Decoding: Diverse Generators Guide Each Other [116.20780037268801]
様々なモデルの恩恵を受けながらテキストを生成するシンプルで一般的な推論アルゴリズムであるTwist decodingを導入する。我々の方法は、語彙、トークン化、あるいは生成順序が共有されていると仮定しない。
論文参考訳（メタデータ） (2022-05-19T01:27:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。