論文の概要: Evaluating the Generalization Capabilities of Large Language Models on Code Reasoning
- arxiv url: http://arxiv.org/abs/2504.05518v1
- Date: Mon, 07 Apr 2025 21:25:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:32:33.819230
- Title: Evaluating the Generalization Capabilities of Large Language Models on Code Reasoning
- Title(参考訳): コード推論に基づく大規模言語モデルの一般化能力の評価
- Authors: Rem Yang, Julian Dai, Nikos Vasilakis, Martin Rinard,
- Abstract要約: 大規模言語モデル(LLM)のコード推論能力が,プログラムの種類によってどのように一般化されるかを評価する。
そこで本研究では,異なる特性を持つ配当プログラムと配当プログラムの取得手法を提案する。
また,これらのプログラムの性能を比較することで,LLMの一般化を評価する実験手法を提案する。
- 参考スコア(独自算出の注目度): 3.7021843299622086
- License:
- Abstract: We assess how the code reasoning abilities of large language models (LLMs) generalize to different kinds of programs. We present techniques for obtaining in- and out-of-distribution programs with different characteristics: code sampled from a domain-specific language, code automatically generated by an LLM, code collected from competitive programming contests, and mutated versions of these programs. We also present an experimental methodology for evaluating LLM generalization by comparing their performance on these programs. We perform an extensive evaluation across 10 state-of-the-art models from the past year, obtaining insights into their generalization capabilities over time and across different classes of programs. Our results highlight that while earlier models exhibit behavior consistent with pattern matching, the latest models exhibit strong generalization abilities on code reasoning.
- Abstract(参考訳): 大規模言語モデル(LLM)のコード推論能力が,プログラムの種類によってどのように一般化されるかを評価する。
本稿では,ドメイン固有言語からサンプルされたコード,LLMによって自動生成されるコード,競合するプログラミングコンテストから収集されたコード,プログラムの変異バージョンなど,異なる特徴を持つイン・オブ・アウト・ディストリビューション・プログラムを得るためのテクニックを提案する。
また,これらのプログラムの性能を比較することで,LLMの一般化を評価する実験手法を提案する。
我々は過去1年間に10の最先端モデルに対して広範囲に評価を行い、その一般化能力について、時間とともに、またプログラムの様々なクラスにわたって洞察を得ることができた。
以上の結果から,従来のモデルはパターンマッチングと一致した動作を示すが,最新のモデルはコード推論に強い一般化能力を示すことがわかった。
関連論文リスト
- SURGE: On the Potential of Large Language Models as General-Purpose Surrogate Code Executors [5.247363735860479]
大規模言語モデル(LLM)は、コードに関連するタスクにおいて顕著な機能を示した。
LLMが多様なプログラムを理解し処理する能力を考えると、汎用的なサロゲートモデルを構築する上で有望な方向性を示す。
SURGEは、1160ドル(約1万1000円)の価格問題で、8ドル(約8万3000円)の鍵となる側面をカバーしたベンチマークです。
オープンソースおよびプロプライエタリ LLM の実証分析を通じて,スケーリング法則,データ効率,予測精度を検討した。
論文 参考訳(メタデータ) (2025-02-16T15:38:19Z) - CharED: Character-wise Ensemble Decoding for Large Language Models [24.993790740335243]
本稿では,複数の大規模言語モデルから出力を"出力する"ことを目的とした推論時アンサンブルアルゴリズムを提案する。
提案モデルでは,語彙,トークン化,モデルサイズに関わらず,複数のLLMの補完的強度を組み合わせることができる。
論文 参考訳(メタデータ) (2024-06-25T22:35:07Z) - OLMES: A Standard for Language Model Evaluations [64.85905119836818]
OLMESは、再現可能な言語モデル評価のための文書化された、実用的な、オープンな標準である。
これは、複数の質問の非自然的な「閉じた」定式化を必要とする小さなベースモデル間の有意義な比較をサポートする。
OLMESには、既存の文献の結果によってガイドされた、よく考えられたドキュメント化されたレコメンデーションと、オープンな質問を解決する新しい実験が含まれている。
論文 参考訳(メタデータ) (2024-06-12T17:37:09Z) - Automating Patch Set Generation from Code Review Comments Using Large Language Models [2.045040820541428]
5つの人気のあるLarge Language Model(LLM)にコードコンテキストを提供します。
実世界のコードレビューコメントから提案したコード変更(パッチセット)を得る。
生成したパッチセットを人為的なパッチセットの履歴データと比較することにより、各モデルの性能を慎重に評価する。
論文 参考訳(メタデータ) (2024-04-10T02:46:08Z) - The Program Testing Ability of Large Language Models for Code [27.590499335039972]
CodeXやCodeT5+のようなコードのための大きな言語モデル(LLM)は、コードインテリジェンスを達成する上で大きな可能性を実証しています。
本稿では、これらのモデルの興味深い特性のシリーズを示し、LLMのプログラムテスト能力をいかに改善できるかを示す。
論文 参考訳(メタデータ) (2023-10-09T13:55:45Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z) - Coder Reviewer Reranking for Code Generation [56.80381384717]
本稿では,コード言語モデルから多様なプログラムを抽出し,モデル確率で再ランク付けする手法として,Coder-Reviewerの再ランク付けを提案する。
実験の結果、Coder-Reviewerのリランクは、Coderモデルのみのリランクよりも一貫性と大幅な改善をもたらすことが示された。
Coder-Reviewerのリランクは、プロンプトによって実装が容易で、異なるプログラミング言語に一般化でき、既定のハイパーパラメータとうまく機能する。
論文 参考訳(メタデータ) (2022-11-29T18:56:33Z) - On the Compositional Generalization Gap of In-Context Learning [73.09193595292233]
In-distriion (ID) と Out-of-distriion (OOD) の相違について考察する。
我々は,3つの意味解析データセットを用いて,OPT,BLOOM,CodeGen,Codexの4つのモデルファミリを評価する。
論文 参考訳(メタデータ) (2022-11-15T19:56:37Z) - Twist Decoding: Diverse Generators Guide Each Other [116.20780037268801]
様々なモデルの恩恵を受けながらテキストを生成するシンプルで一般的な推論アルゴリズムであるTwist decodingを導入する。
我々の方法は、語彙、トークン化、あるいは生成順序が共有されていると仮定しない。
論文 参考訳(メタデータ) (2022-05-19T01:27:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。