論文の概要: The Fools are Certain; the Wise are Doubtful: Exploring LLM Confidence in Code Completion
- arxiv url: http://arxiv.org/abs/2508.16131v1
- Date: Fri, 22 Aug 2025 06:51:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.273449
- Title: The Fools are Certain; the Wise are Doubtful: Exploring LLM Confidence in Code Completion
- Title(参考訳): Foolsは確実に、Wiseは疑わしい:コード補完におけるLCMの信頼性を探る
- Authors: Zoe Kotti, Konstantina Dritsa, Diomidis Spinellis, Panos Louridas,
- Abstract要約: コードパープレキシティの測定により,コード生成時のLLM(Large Language Models)の信頼性を評価する。
強い型付け言語は動的型付け言語よりも難易度が低いことがわかった。
Perlは難易度が普遍的に高いが、Javaは低いように見える。
- 参考スコア(独自算出の注目度): 4.215010577170175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code completion entails the task of providing missing tokens given a surrounding context. It can boost developer productivity while providing a powerful code discovery tool. Following the Large Language Model (LLM) wave, code completion has been approached with diverse LLMs fine-tuned on code (code LLMs). The performance of code LLMs can be assessed with downstream and intrinsic metrics. Downstream metrics are usually employed to evaluate the practical utility of a model, but can be unreliable and require complex calculations and domain-specific knowledge. In contrast, intrinsic metrics such as perplexity, entropy, and mutual information, which measure model confidence or uncertainty, are simple, versatile, and universal across LLMs and tasks, and can serve as proxies for functional correctness and hallucination risk in LLM-generated code. Motivated by this, we evaluate the confidence of LLMs when generating code by measuring code perplexity across programming languages, models, and datasets using various LLMs, and a sample of 1008 files from 657 GitHub projects. We find that strongly-typed languages exhibit lower perplexity than dynamically typed languages. Scripting languages also demonstrate higher perplexity. Perl appears universally high in perplexity, whereas Java appears low. Code perplexity depends on the employed LLM, but not on the code dataset. Although code comments often increase perplexity, the language ranking based on perplexity is barely affected by their presence. LLM researchers, developers, and users can employ our findings to assess the benefits and suitability of LLM-based code completion in specific software projects based on how language, model choice, and code characteristics impact model confidence.
- Abstract(参考訳): コード補完は、周囲のコンテキストに与えられた欠落したトークンを提供するタスクを伴います。
強力なコード発見ツールを提供しながら、開発者の生産性を高めることができる。
LLM(Large Language Model)波の後、コードに微調整された多種多様なLLM(code LLM)でコード補完がアプローチされた。
コードLLMのパフォーマンスは、下流と固有のメトリクスで評価できる。
下流のメトリクスは通常、モデルの実用性を評価するために使用されるが、信頼性が低く、複雑な計算とドメイン固有の知識を必要とする。
対照的に、モデル信頼度や不確実性を測定するパープレキシティ、エントロピー、相互情報といった内在的な指標は、単純で汎用的で、LLMやタスク全体にわたって普遍的であり、LLM生成コードの機能的正しさと幻覚リスクのプロキシとして機能する。
これにより,プログラム言語,モデル,データセット間のコードの複雑度を測定してコードを生成する場合のLCMの信頼性と,GitHubプロジェクト657の1008ファイルのサンプルを評価した。
強い型付け言語は動的型付け言語よりも難易度が低いことがわかった。
スクリプト言語はより複雑であることも示している。
Perlは難易度が普遍的に高いが、Javaは低いように見える。
コードの難易度は、採用されているLLMに依存するが、コードデータセットには依存しない。
コードコメントは難易度を高めることが多いが、難易度に基づく言語ランキングはその存在によってほとんど影響を受けない。
LLMの研究者、開発者、ユーザは、言語、モデル選択、そしてコード特性がモデルの信頼性にどのように影響するかに基づいて、特定のソフトウェアプロジェクトにおいてLLMベースのコード補完の利点と適合性を評価するために、我々の研究結果を利用することができます。
関連論文リスト
- Can LLMs Replace Humans During Code Chunking? [2.4056836012742]
大規模言語モデル(LLM)は、特にコード理解と生成に関わるタスクにおいて、コンピュータ科学において重要なツールとなっている。
本稿では,ALC および MUMPS で記述されたレガシ行政コードの近代化における LLM の適用について検討する。
論文 参考訳(メタデータ) (2025-06-24T13:02:35Z) - How Accurately Do Large Language Models Understand Code? [4.817546726074033]
大規模言語モデル(LLM)は、コードの修復やテストといった開発後のタスクでますます使われています。
コードの理解の定量化は、その抽象的な性質と標準化されたメトリクスの欠如のために難しい。
本稿では,LLMのコード理解能力に関する大規模な実証的研究を行った。
論文 参考訳(メタデータ) (2025-04-06T05:59:29Z) - Perplexed: Understanding When Large Language Models are Confused [3.4208414448496027]
本稿では,言語モデルが複雑になる場所を探索するライブラリであるperplexedを紹介する。
Codetokenizerと呼ばれるコードモデルの解析を支援するために構築した追加ツールを使用して、コード生成のためのLLM(Large Language Models)に焦点を当てたケーススタディを実施しました。
我々の研究したコードLLMは、コードが構文的に正しくないコーディング構造において、最悪のパフォーマンスを示しました。
論文 参考訳(メタデータ) (2024-04-09T22:03:39Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。