論文の概要: Model-Agnostic Correctness Assessment for LLM-Generated Code via Dynamic Internal Representation Selection
- arxiv url: http://arxiv.org/abs/2510.02934v1
- Date: Fri, 03 Oct 2025 12:25:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.374484
- Title: Model-Agnostic Correctness Assessment for LLM-Generated Code via Dynamic Internal Representation Selection
- Title(参考訳): 動的内部表現選択によるLLM生成符号のモデル非依存的正確性評価
- Authors: Thanh Trong Vu, Tuan-Dung Bui, Thu-Trang Nguyen, Son Nguyen, Hieu Dinh Vo,
- Abstract要約: 大規模言語モデル(LLM)は、コード生成において印象的な機能を示し、ソフトウェア開発プロセスにますます統合されています。
以前の研究は、LLMの内部表現がコード正確性を評価するための有意義な信号を符号化していることを示している。
本稿では,コード正当性評価において最も情報性の高い内部表現を動的に選択する,新しいモデルに依存しない手法を提案する。
- 参考スコア(独自算出の注目度): 4.519742169205334
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated impressive capabilities in code generation and are increasingly integrated into the software development process. However, ensuring the correctness of LLM-generated code remains a critical concern. Prior work has shown that the internal representations of LLMs encode meaningful signals for assessing code correctness. Nevertheless, the existing methods rely on representations from pre-selected/fixed layers and token positions, which could limit its generalizability across diverse model architectures and tasks. In this work, we introduce AUTOPROBE, a novel model-agnostic approach that dynamically selects the most informative internal representations for code correctness assessment. AUTOPROBE employs an attention-based mechanism to learn importance scores for hidden states, enabling it to focus on the most relevant features. These weighted representations are then aggregated and passed to a probing classifier to predict code correctness across multiple dimensions, including compilability, functionality, and security. To evaluate the performance of AUTOPROBE, we conduct extensive experiments across multiple benchmarks and code LLMs. Our experimental results show that AUTOPROBE consistently outperforms the baselines. For security assessment, AUTOPROBE surpasses the state-of-the-art white-box approach by 18%. For compilability and functionality assessment, AUTOPROBE demonstrates its highest robustness to code complexity, with the performance higher than the other approaches by up to 19% and 111%, respectively. These findings highlight that dynamically selecting important internal signals enables AUTOPROBE to serve as a robust and generalizable solution for assessing the correctness of code generated by various LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コード生成において印象的な機能を示し、ソフトウェア開発プロセスにますます統合されています。
しかし、LLM生成コードの正確性を保証することは重要な問題である。
以前の研究は、LLMの内部表現がコード正確性を評価するための有意義な信号を符号化していることを示している。
それでも、既存のメソッドは事前に選択/固定されたレイヤとトークンの位置の表現に依存しており、様々なモデルアーキテクチャやタスクの一般化性を制限することができる。
本稿では,コード正当性評価において最も情報性の高い内部表現を動的に選択する,新しいモデルに依存しないアプローチであるAUTOPROBEを紹介する。
AUTOPROBEは、注意に基づくメカニズムを使用して、隠れた状態の重要度を学習し、最も関連性の高い機能に集中できるようにする。
これらの重み付けされた表現は集約され、コンパイル可能性、機能、セキュリティを含む複数の次元にわたるコードの正確性を予測するために、プローブ分類器に渡される。
AUTOPROBEの性能を評価するために、複数のベンチマークとコードLLMにまたがる広範な実験を行った。
実験の結果,AUTOPROBEは一貫してベースラインを上回っていることがわかった。
セキュリティ評価では、AUTOPROBEは最先端のホワイトボックスアプローチを18%上回っている。
コンパイル可能性と機能評価については、AUTOPROBEがコード複雑性に対する高い堅牢性を示し、それぞれ19%と111%という他のアプローチよりも高いパフォーマンスを示している。
これらの結果から,重要な内部信号の動的選択により,AUTOPROBE は様々な LLM が生成するコードの正確性を評価するための堅牢で一般化可能なソリューションとして機能することが示唆された。
関連論文リスト
- Protocode: Prototype-Driven Interpretability for Code Generation in LLMs [5.8296917468117835]
大規模言語モデル(LLM)は、テキスト要約、質問応答、音声からテキストへの翻訳など、様々なタスクに広く採用されている。
我々の研究は、モデルの性能を改善し、生成されたコードの解釈可能性を高めることができるインコンテキスト学習(ICL)のデモを自動的にサンプリングすることに焦点を当てている。
論文 参考訳(メタデータ) (2025-09-27T00:32:45Z) - CodeJudgeBench: Benchmarking LLM-as-a-Judge for Coding Tasks [63.562924932512765]
LLM(Large Language Models)は、様々なコーディングタスクにおいて最先端の言語モデルである。
LLMは、他のモデルによって生成された応答の品質を評価し、比較する裁判官としても機能する。
論文 参考訳(メタデータ) (2025-07-14T17:56:29Z) - Evaluating Large Language Models on Non-Code Software Engineering Tasks [4.381476817430934]
大規模言語モデル(LLM)は、コード理解と生成において顕著な能力を示している。
ソフトウェア工学言語理解(SELU)と呼ばれる最初の包括的なベンチマークを提示する。
SELUは、分類、回帰、名前付きエンティティ認識(NER)とマスケッド言語モデリング(MLM)のターゲットをカバーし、さまざまなソースからデータを引き出す。
論文 参考訳(メタデータ) (2025-06-12T15:52:32Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - Correctness Assessment of Code Generated by Large Language Models Using Internal Representations [4.32362000083889]
大規模言語モデル(LLM)が生成するコードの正確性を評価する新しいフレームワークであるOPENIAを紹介する。
我々の経験的分析により、これらの内部表現が潜時情報を符号化し、生成したコードの正しさと強く相関していることが明らかとなった。
OPENIAはベースラインモデルより一貫して優れており、高い精度、精度、リコール、F1スコアを実現し、スタンドアロンコード生成の最大2倍の改善を実現している。
論文 参考訳(メタデータ) (2025-01-22T15:04:13Z) - CodeDPO: Aligning Code Models with Self Generated and Verified Source Code [52.70310361822519]
我々は、コード生成に好み学習を統合するフレームワークであるCodeDPOを提案し、コードの正確性と効率性という2つの重要なコード優先要因を改善した。
CodeDPOは、コードとテストケースを同時に生成、評価するセルフジェネレーション・アンド・バリデーションメカニズムを利用して、新しいデータセット構築方法を採用している。
論文 参考訳(メタデータ) (2024-10-08T01:36:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。