Fugu-MT 論文翻訳(概要): Do LLMs Trust the Code They Write?

論文の概要: Do LLMs Trust the Code They Write?

arxiv url: http://arxiv.org/abs/2512.07404v1
Date: Mon, 08 Dec 2025 10:38:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-09 22:03:54.842907
Title: Do LLMs Trust the Code They Write?
Title（参考訳）: LLMは書いたコードを信頼しているか?
Authors: Francisco Ribeiro, Claudio Spiess, Prem Devanbu, Sarah Nadi,
Abstract要約: 本稿では,大規模言語モデル (LLM) がコード正確性を表すかどうかを考察する。我々は,LLMの内部の正当性表現を,同一のプログラミングタスクに対して,正しい符号と誤り符号のペア間の隠れ状態とを対比することにより同定する。抽出した正当性表現を利用することで,標準対数的ランキングと言語モデル信頼度を向上することを示す。
参考スコア（独自算出の注目度）: 1.0344061385065657
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite the effectiveness of large language models (LLMs) for code generation, they often output incorrect code. One reason is that model output probabilities are often not well-correlated with correctness, and reflect only the final output of the generation process. Inspired by findings that LLMs internally encode concepts like truthfulness, this paper explores if LLMs similarly represent code correctness. Specifically, we identify a correctness representation inside LLMs by contrasting the hidden states between pairs of correct and incorrect code for the same programming tasks. By experimenting on four LLMs, we show that exploiting this extracted correctness representation outperforms standard log-likelihood ranking, as well as verbalized model confidence. Furthermore, we explore how this internal correctness signal can be used to select higher-quality code samples, without requiring test execution. Ultimately, this work demonstrates how leveraging internal representations can enhance code generation systems and make LLMs more reliable, thus improving confidence in automatically generated code.
Abstract（参考訳）: コード生成のための大きな言語モデル(LLM)の有効性にもかかわらず、しばしば間違ったコードを出力する。一つの理由は、モデル出力確率がしばしば正確性とよく相関せず、生成プロセスの最終出力のみを反映しているからである。 LLMが真理性などの概念を内部的にエンコードしているという発見から着想を得て,LLMがコード正当性を表すかどうかを考察する。具体的には,LLM内の正当性表現を,同一のプログラミングタスクに対して,正しい符号と誤り符号のペア間の隠れ状態とを対比することにより同定する。 4つの LLM を用いて実験した結果,抽出した正当性表現の精度は,標準対数的ランキングよりも優れており,また,言語モデルによる信頼度も高いことがわかった。さらに,この内部正当性信号を用いて,テスト実行を必要とせず,高品質なコードサンプルを選択する方法について検討する。最終的に、この研究は、内部表現の活用がコード生成システムを強化し、LLMをより信頼性を高め、自動的に生成されたコードの信頼性を向上させる方法を示している。

関連論文リスト

The Fools are Certain; the Wise are Doubtful: Exploring LLM Confidence in Code Completion [4.215010577170175]
コードパープレキシティの測定により,コード生成時のLLM(Large Language Models)の信頼性を評価する。強い型付け言語は動的型付け言語よりも難易度が低いことがわかった。 Perlは難易度が普遍的に高いが、Javaは低いように見える。
論文参考訳（メタデータ） (2025-08-22T06:51:13Z)
CodeJudgeBench: Benchmarking LLM-as-a-Judge for Coding Tasks [63.562924932512765]
LLM(Large Language Models)は、様々なコーディングタスクにおいて最先端の言語モデルである。 LLMは、他のモデルによって生成された応答の品質を評価し、比較する裁判官としても機能する。
論文参考訳（メタデータ） (2025-07-14T17:56:29Z)
How Accurately Do Large Language Models Understand Code? [4.817546726074033]
大規模言語モデル(LLM)は、コードの修復やテストといった開発後のタスクでますます使われています。コードの理解の定量化は、その抽象的な性質と標準化されたメトリクスの欠如のために難しい。本稿では,LLMのコード理解能力に関する大規模な実証的研究を行った。
論文参考訳（メタデータ） (2025-04-06T05:59:29Z)
Assured LLM-Based Software Engineering [51.003878077888686]
この記事では,2024年4月15日にポルトガルのリスボンで開催された International Workshop on Interpretability, Robustness, and Benchmarking in Neural Software Engineering で,Mark Harman 氏による基調講演の内容の概要を紹介する。
論文参考訳（メタデータ） (2024-02-06T20:38:46Z)
Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。 LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。 LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文参考訳（メタデータ） (2023-10-15T12:40:30Z)
DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文参考訳（メタデータ） (2023-09-07T17:45:31Z)
Coarse-Tuning Models of Code with Reinforcement Learning Feedback [0.0]
コード上で事前訓練されたLarge Language Models (LLM) が、プログラム合成の主流のアプローチとして登場した。コードの品質を評価する接地関数からのフィードバックを用いて、強化学習により事前学習したLLMをさらに訓練するRCCFを提案する。
論文参考訳（メタデータ） (2023-05-25T22:09:08Z)
LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。 LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文参考訳（メタデータ） (2023-02-16T18:23:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。