論文の概要: Dynamic Stability of LLM-Generated Code
- arxiv url: http://arxiv.org/abs/2511.07463v1
- Date: Wed, 12 Nov 2025 01:00:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.341388
- Title: Dynamic Stability of LLM-Generated Code
- Title(参考訳): LLM生成コードの動的安定性
- Authors: Prateek Rajput, Abdoul Aziz Bonkoungou, Yewei Song, Abdoul Kader Kabore, Iyiola E. Olatunji, Jacques Klein, Tegewende Bissyande,
- Abstract要約: コード生成のためのLLMの現在の評価は、関数的に正しい解がアルゴリズムの複雑さにおいて著しく異なるという事実を見落としている。
本稿では,生成コードの動的安定性を評価するためのフレームワークを提案する。
コード生成における安定性を意識した目標と、堅牢で現実的な評価のためのテストケースを備えた新しいベンチマークが求められた。
- 参考スコア(独自算出の注目度): 6.120340803716395
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Current evaluations of LLMs for code generation emphasize functional correctness, overlooking the fact that functionally correct solutions can differ significantly in algorithmic complexity. For instance, an $(O(n^2))$ versus $(O(n \log n))$ sorting algorithm may yield similar output but incur vastly different performance costs in production. This discrepancy reveals a critical limitation in current evaluation methods: they fail to capture the behavioral and performance diversity among correct solutions. To address this, we introduce a principled framework for evaluating the dynamic stability of generated code. We propose two metrics derived from opcode distributions: Static Canonical Trace Divergence (SCTD), which captures algorithmic structure diversity across generated solutions, and Dynamic Canonical Trace Divergence (DCTD), which quantifies runtime behavioral variance. Their ratio, the Behavioral Expression Factor (BEF), serves as a diagnostic signal: it indicates critical runtime instability when BEF $\ll$ 1 and functional redundancy when BEF $\gg$ 1. Empirical results on BigOBench and CodeContests show that state-of-the-art LLMs exhibit significant algorithmic variance even among functionally correct outputs. Notably, increasing sampling temperature improves pass@1 rates but degrades stability, revealing an unrecognized trade-off: searching for correct solutions in diverse output spaces introduces a "penalty of instability" between correctness and behavioral consistency. Our findings call for stability-aware objectives in code generation and new benchmarks with asymptotic test cases for robust, real-world LLM evaluation.
- Abstract(参考訳): コード生成のためのLLMの現在の評価は、関数的に正しい解がアルゴリズムの複雑さにおいて著しく異なるという事実を見越して、機能的正当性を強調している。
例えば、$(O(n^2))$ 対 $(O(n \log n))$ ソートアルゴリズムは同様の出力が得られるが、生産において全く異なる性能コストをもたらす。
この不一致は、現在の評価手法において重要な限界を明らかにし、それらは正しい解の振る舞いや性能の多様性を捉えるのに失敗する。
そこで本研究では,生成コードの動的安定性を評価するためのフレームワークを提案する。
そこで我々は,Opcode分布から導かれる2つの指標を提案する。静的正準トレース分散(SCTD, Static Canonical Trace Divergence, SCTD)と動的正準トレース分散(DCTD, Dynamic Canonical Trace Divergence, DCTD)である。
BEF $\ll$ 1 と BEF $\gg$ 1 と関数冗長性を示す。
BigOBenchとCodeContestsの実証的な結果から、最先端のLLMは機能的に正しい出力であっても大きなアルゴリズム的分散を示すことが示された。
特に、サンプリング温度の上昇はパス@1レートを改善するが、安定性を低下させ、認識できないトレードオフを明らかにしている: 多様な出力空間における正しい解を探すことは、正しさと行動整合性の間に「不安定のペナルティ」をもたらす。
コード生成における安定性を意識した目標と,より堅牢で現実的なLCM評価のための漸近的テストケースを用いた新しいベンチマークが求められた。
関連論文リスト
- Iterative Refinement of Flow Policies in Probability Space for Online Reinforcement Learning [56.47948583452555]
固定ステップのEulerスキームによるフローマッチング推論プロセスの離散化は,最適輸送から変化するJordan-Kinderlehrer-Otto原理と整合する,というキーインサイトに基づいて,SWFP(Stepwise Flow Policy)フレームワークを紹介した。
SWFPは、大域的な流れを、プロキシメート分布間の小さな漸進的な変換の列に分解する。
この分解は、小さな流れブロックのカスケードを介して事前訓練された流れを微調整する効率的なアルゴリズムを導き、大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-10-17T07:43:51Z) - Measuring LLM Code Generation Stability via Structural Entropy [4.812266013066678]
抽象構文木 (AST) 解析と組み合わせてプログラム領域に「構造エントロピーの概念」を拡張する。
i) 構造重なりの対称的有界指標であるJensen-Shannon分散と(ii) 高確率パターンの欠如を強調する構造的クロスエントロピー比の2つの相補的な方法で安定性を測定する。
Pass@k、BLEU、CodeBLEUとは異なり、私たちのメトリクスは参照なし、言語非依存、実行非依存です。
論文 参考訳(メタデータ) (2025-08-19T22:07:12Z) - Assessing Correctness in LLM-Based Code Generation via Uncertainty Estimation [0.0]
LLM生成符号の正確性のプロキシとして不確実性推定を検討する。
自然言語生成からコード生成領域への2つの最先端技術を適用する。
これらの手法を用いて計算した不確実性と正確性との間には強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2025-02-17T10:03:01Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - A Scale-Invariant Sorting Criterion to Find a Causal Order in Additive
Noise Models [49.038420266408586]
分散の増加による変数のソートは、しばしば因果順序に近い順序になることを示す。
本稿ではR2$-SortnRegressと呼ばれる,高いR2$-sortabilityを利用する効率的なベースラインアルゴリズムを提案する。
その結果,因果発見に関連するデータ生成プロセスの仮定として,R2$-sortabilityが高額であることが判明した。
論文 参考訳(メタデータ) (2023-03-31T17:05:46Z) - Evolving Pareto-Optimal Actor-Critic Algorithms for Generalizability and
Stability [67.8426046908398]
汎用性と安定性は,実世界における強化学習(RL)エージェントの運用において重要な2つの目的である。
本稿では,アクター・クリティック・ロス関数の自動設計法であるMetaPGを提案する。
論文 参考訳(メタデータ) (2022-04-08T20:46:16Z) - Instance-optimality in optimal value estimation: Adaptivity via
variance-reduced Q-learning [99.34907092347733]
本稿では,マルコフ決定過程における最適な$Q$値関数を離散状態と動作で推定する問題を解析する。
局所的なミニマックスフレームワークを用いて、この関数は任意の推定手順の精度の低い境界に現れることを示す。
他方,Q$ラーニングの分散還元版を解析することにより,状態と行動空間の対数的要因まで,下位境界のシャープさを確立する。
論文 参考訳(メタデータ) (2021-06-28T00:38:54Z) - Convergence Analysis of the Hessian Estimation Evolution Strategy [3.756550107432323]
Hessian Estimation Evolution Strategies (HE-ESs) は、目的関数の曲率を直接推定することによって、サンプリング分布の共分散行列を更新する。
1+4)-HE-ESは家族の最小のエリート主義者である。
論文 参考訳(メタデータ) (2020-09-06T13:34:25Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。