論文の概要: Beyond Memorization: Evaluating the True Type Inference Capabilities of LLMs for Java Code Snippets
- arxiv url: http://arxiv.org/abs/2503.04076v1
- Date: Thu, 06 Mar 2025 04:13:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:01:01.315190
- Title: Beyond Memorization: Evaluating the True Type Inference Capabilities of LLMs for Java Code Snippets
- Title(参考訳): メモリ化を超えて - JavaコードスニペットのためのLLMの真の型推論機能を評価する
- Authors: Yiwen Dong, Zhenyang Xu, Yongqiang Tian, Chengnian Sun,
- Abstract要約: 最近の研究は、コードスニペットの型推論にLarge Language Modelsを活用し、有望な結果を示している。
しかし、ベンチマークスイート(StatType-SO)が2017年以来GitHubで公開されているため、これらの結果はデータ漏洩の影響を受けやすい。
Java コードスニペット上で LLM の型推論能力を総合的に評価するために,3段階評価を行った。
- 参考スコア(独自算出の注目度): 3.152174935904172
- License:
- Abstract: Type inference is a crucial task for reusing online code snippets, often found on platforms like StackOverflow, which frequently lack essential type information such as fully qualified names (FQNs) and required libraries. Recent studies have leveraged Large Language Models (LLMs) for type inference on code snippets, showing promising results. However, these results are potentially affected by data leakage, as the benchmark suite (StatType-SO) has been public on GitHub since 2017 (full suite in 2023). Thus, it is uncertain whether LLMs' strong performance reflects genuine code semantics understanding or a mere retrieval of ground truth from training data. To comprehensively assess LLMs' type inference capabilities on Java code snippets, we conducted a three-pronged evaluation. First, utilizing Thalia, a program synthesis technique, we created ThaliaType--a new, unseen dataset for type inference evaluation. On unseen snippets, LLM performance dropped significantly, with up to a 59% decrease in precision and 72% in recall. Second, we developed semantic-preserving transformations that significantly degraded LLMs' type inference performance, revealing weaknesses in understanding code semantics. Third, we used delta debugging to identify the minimal syntax elements sufficient for LLM inference. While type inference primarily involves inferring FQNs for types in the code snippet, LLMs correctly infer FQNs even when the types were absent from the snippets, suggesting a reliance on knowledge from training instead of thoroughly analyzing the snippets. Our findings indicate that LLMs' strong past performance likely stemmed from data leakage, rather than a genuine understanding of the semantics of code snippets. Our findings highlight the crucial need for carefully designed benchmarks using unseen code snippets to assess the true capabilities of LLMs for type inference tasks.
- Abstract(参考訳): 型推論はオンラインコードスニペットを再利用するための重要なタスクであり、StackOverflowのようなプラットフォームでよく見られる。
最近の研究は、コードスニペットの型推論にLarge Language Models (LLM)を活用し、有望な結果を示している。
ベンチマークスイート(StatType-SO)は2017年からGitHubで公開されている(2023年のフルスイート)。
したがって、LLMの強みは、実際のコード意味論の理解を反映しているか、あるいはトレーニングデータから根拠真理の単なる検索を反映しているかは不透明である。
Javaのコードスニペット上でLLMの型推論能力を総合的に評価するために,我々は3つの提案された評価を行った。
まず,プログラム合成技術であるTaliaを利用して,型推論評価のための新しい未知のデータセットであるThaliaTypeを開発した。
未確認のスニペットでは、LLMのパフォーマンスが大幅に低下し、最大で59%の精度が低下し、72%のリコールが可能となった。
第2に,LLMの型推論性能を著しく低下させる意味保存変換を開発し,コードのセマンティクス理解の弱点を明らかにした。
第3に、LLM推論に十分な最小限の構文要素を特定するためにデルタデバッギングを使用しました。
型推論は、主にコードスニペットの型に対してFQNを推論するが、LLMは、スニペットから型が欠落している場合でもFQNを正しく推論し、スニペットを徹底的に分析する代わりに、トレーニングからの知識に依存することを示唆している。
コードスニペットのセマンティクスを真に理解するよりも,LLMの過去の強靭な性能がデータ漏洩に起因している可能性が示唆された。
我々の研究結果は、型推論タスクにおけるLLMの真の能力を評価するために、未確認のコードスニペットを使用して慎重に設計されたベンチマークの必要性を浮き彫りにしている。
関連論文リスト
- Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキスト上に既存のテキスト埋め込みモデルを微調整することで、優れた分類精度が得られることが判明した。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - Generating Unseen Code Tests In Infinitum [1.0674604700001968]
本稿では,プログラミングタスクやプログラミング言語にまたがって一般化するベンチマークのバリエーションを作成する手法を提案する。
我々は、Pythonでテキストからコードを生成するタスクに対して、textitauto-regressionと呼ばれる1つのベンチマークを実装した。
論文 参考訳(メタデータ) (2024-07-29T08:11:20Z) - Source Code Summarization in the Era of Large Language Models [23.715005053430957]
大規模言語モデル(LLM)は、コード関連のタスクのパフォーマンスを大幅に向上させた。
本稿では,LLMにおけるコード要約の体系的および包括的研究を行う。
論文 参考訳(メタデータ) (2024-07-09T05:48:42Z) - Bug In the Code Stack: Can LLMs Find Bugs in Large Python Code Stacks [1.3586572110652484]
本研究では,大規模文書から文脈情報を取得する上でのLLM(Large Language Models)の機能について検討する。
我々のベンチマークであるBug In The Code Stack (BICS)は、大規模なソースコード内の単純な構文バグを識別するLLMの能力を評価するために設計されている。
その結果,(1)検索タスクのテキストベースの環境に比べ,コードベースの環境の方が有意に困難であり,(2)異なるモデル間の性能差が大きく,(3)コンテキスト長と性能劣化との間には顕著な相関関係があることが判明した。
論文 参考訳(メタデータ) (2024-06-21T17:37:10Z) - Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs [65.2379940117181]
自然言語の問題をコードに変換する一連のプロンプトであるコードプロンプトを導入します。
コードプロンプトは複数のLLMに対して高速に向上することがわかった。
GPT 3.5を解析した結果,入力問題のコードフォーマッティングが性能向上に不可欠であることが判明した。
論文 参考訳(メタデータ) (2024-01-18T15:32:24Z) - Which Syntactic Capabilities Are Statistically Learned by Masked
Language Models for Code? [51.29970742152668]
精度に基づく測定に依存することで、モデルの能力が過大評価される可能性があることを強調する。
これらの問題に対処するために,SyntaxEval in Syntactic Capabilitiesというテクニックを導入する。
論文 参考訳(メタデータ) (2024-01-03T02:44:02Z) - LLatrieval: LLM-Verified Retrieval for Verifiable Generation [67.93134176912477]
検証可能な生成は、大きな言語モデル(LLM)がドキュメントをサポートするテキストを生成することを目的としている。
本稿では,LLatrieval (Large Language Model Verified Retrieval)を提案する。
実験により、LLatrievalは幅広いベースラインを著しく上回り、最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2023-11-14T01:38:02Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z) - Benchmarking Causal Study to Interpret Large Language Models for Source
Code [6.301373791541809]
本稿では,3つのSEタスクをキュレートしたテストベッドからなるGalerasというベンチマーク戦略を紹介する。
本稿では,ChatGPTの性能に関するケーススタディを,個別の迅速なエンジニアリング手法で実施することで,ベンチマーク戦略の知見を述べる。
論文 参考訳(メタデータ) (2023-08-23T20:32:12Z) - Coarse-Tuning Models of Code with Reinforcement Learning Feedback [0.0]
コード上で事前訓練されたLarge Language Models (LLM) が、プログラム合成の主流のアプローチとして登場した。
コードの品質を評価する接地関数からのフィードバックを用いて、強化学習により事前学習したLLMをさらに訓練するRCCFを提案する。
論文 参考訳(メタデータ) (2023-05-25T22:09:08Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。