論文の概要: Measuring LLM Code Generation Stability via Structural Entropy
- arxiv url: http://arxiv.org/abs/2508.14288v1
- Date: Tue, 19 Aug 2025 22:07:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.281513
- Title: Measuring LLM Code Generation Stability via Structural Entropy
- Title(参考訳): 構造エントロピーによるLLMコード生成安定性の測定
- Authors: Yewei Song, Tiezhu Sun, Xunzhu Tang, Prateek Rajput, Tegawende F. Bissyande, Jacques Klein,
- Abstract要約: 抽象構文木 (AST) 解析と組み合わせてプログラム領域に「構造エントロピーの概念」を拡張する。
i) 構造重なりの対称的有界指標であるJensen-Shannon分散と(ii) 高確率パターンの欠如を強調する構造的クロスエントロピー比の2つの相補的な方法で安定性を測定する。
Pass@k、BLEU、CodeBLEUとは異なり、私たちのメトリクスは参照なし、言語非依存、実行非依存です。
- 参考スコア(独自算出の注目度): 4.812266013066678
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Assessing the stability of code generation from large language models (LLMs) is essential for judging their reliability in real-world development. We extend prior "structural-entropy concepts" to the program domain by pairing entropy with abstract syntax tree (AST) analysis. For any fixed prompt, we collect the multiset of depth-bounded subtrees of AST in each generated program and treat their relative frequencies as a probability distribution. We then measure stability in two complementary ways: (i) Jensen-Shannon divergence, a symmetric, bounded indicator of structural overlap, and (ii) a Structural Cross-Entropy ratio that highlights missing high-probability patterns. Both metrics admit structural-only and token-aware variants, enabling separate views on control-flow shape and identifier-level variability. Unlike pass@k, BLEU, or CodeBLEU, our metrics are reference-free, language-agnostic, and execution-independent. We benchmark several leading LLMs on standard code generation tasks, demonstrating that AST-driven structural entropy reveals nuances in model consistency and robustness. The method runs in O(n,d) time with no external tests, providing a lightweight addition to the code-generation evaluation toolkit.
- Abstract(参考訳): 大規模言語モデル(LLM)からのコード生成の安定性を評価することは、実際の開発における信頼性を判断するために不可欠である。
我々は、抽象構文木(AST)解析とペアリングエントロピーにより、事前の「構造-エントロピーの概念」をプログラム領域に拡張する。
任意の固定プロンプトに対して、各生成プログラムでASTの深さ有界部分木の多重集合を収集し、それらの相対周波数を確率分布として扱う。
次に、安定性を2つの相補的な方法で測定する。
(i)Jensen-Shannon発散、対称的、有界な構造重なりの指標、及び
(II)高確率パターンの欠如を強調する構造的クロスエントロピー比。
どちらのメトリクスも構造限定とトークン対応の亜種を認めており、制御フローの形状と識別子レベルの変動を別々に見ることができる。
Pass@k、BLEU、CodeBLEUとは異なり、私たちのメトリクスは参照なし、言語非依存、実行非依存です。
AST駆動型構造エントロピーがモデル一貫性とロバストネスのニュアンスを明らかにしていることを示す。
このメソッドは外部テストなしでO(n,d)時間で動作し、コード生成評価ツールキットに軽量な追加を提供する。
関連論文リスト
- SEED: A Structural Encoder for Embedding-Driven Decoding in Time Series Prediction with LLMs [3.036179638516407]
組込み型デコードのための構造的エンコーダSEEDは,パッチ抽出のためのトークン対応エンコーダ,言語モデル埋め込みとパッチを整列するプロジェクションモジュール,タスク対応プロトタイプにパッチをマッピングするセマンティックプログラミング機構の4つの段階を統合している。
このモジュラーアーキテクチャは、推論から表現学習を分離し、数値パターンと意味論的推論の効率的なアライメントを可能にする。
論文 参考訳(メタデータ) (2025-06-25T06:40:14Z) - ConsistencyChecker: Tree-based Evaluation of LLM Generalization Capabilities [14.13459302125202]
大きな言語モデル(LLM)の一貫性を評価することは、信頼性を確保するために不可欠である。
従来の自己整合性メソッドは、自然言語の微妙な意味的変化や、コードや方程式の関数的シフトを見逃すことが多い。
可逆変換のシーケンスによる一貫性の測定を目的とした木に基づく評価フレームワークであるConsistencyCheckerを提案する。
論文 参考訳(メタデータ) (2025-06-14T07:18:33Z) - Inv-Entropy: A Fully Probabilistic Framework for Uncertainty Quantification in Language Models [5.6672926445919165]
大規模言語モデル(LLM)は自然言語処理を変換しているが、信頼性の高いデプロイメントには有効な不確実性定量化(UQ)が必要である。
既存のUQメソッドは多くの場合、確率論的基盤を欠いている。
本稿では, 与えられた出力に条件付き入力空間の多様性を評価することによって不確実性を定量的に評価する, 逆モデルに基づく完全確率的フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-11T13:02:17Z) - Enhancing LLMs for Time Series Forecasting via Structure-Guided Cross-Modal Alignment [12.319685395140862]
本稿では,時系列データと言語データで共有される状態遷移グラフ構造を逐次モーダルとして活用・整合するフレームワークを提案する。
複数のベンチマークの実験は、SGCMAが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-05-19T14:30:41Z) - Latent Semantic Consensus For Deterministic Geometric Model Fitting [109.44565542031384]
我々はLSC(Latent Semantic Consensus)と呼ばれる効果的な方法を提案する。
LSCは、モデルフィッティング問題をデータポイントとモデル仮説に基づく2つの潜在意味空間に定式化する。
LSCは、一般的な多構造モデルフィッティングのために、数ミリ秒以内で一貫した、信頼性の高いソリューションを提供することができる。
論文 参考訳(メタデータ) (2024-03-11T05:35:38Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - GFlowNet-EM for learning compositional latent variable models [115.96660869630227]
ラテントの後方のモデリングにおける重要なトレードオフは、表現性とトラクタブルな最適化の間にある。
非正規化密度からサンプリングするアルゴリズムであるGFlowNetsを提案する。
GFlowNetsをトレーニングして、後部から潜伏者へのサンプルをトレーニングすることにより、それらの強度をアモータライズされた変分アルゴリズムとして活用する。
論文 参考訳(メタデータ) (2023-02-13T18:24:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。