論文の概要: Measuring LLM Code Generation Stability via Structural Entropy
- arxiv url: http://arxiv.org/abs/2508.14288v1
- Date: Tue, 19 Aug 2025 22:07:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.281513
- Title: Measuring LLM Code Generation Stability via Structural Entropy
- Title(参考訳): 構造エントロピーによるLLMコード生成安定性の測定
- Authors: Yewei Song, Tiezhu Sun, Xunzhu Tang, Prateek Rajput, Tegawende F. Bissyande, Jacques Klein,
- Abstract要約: 抽象構文木 (AST) 解析と組み合わせてプログラム領域に「構造エントロピーの概念」を拡張する。
i) 構造重なりの対称的有界指標であるJensen-Shannon分散と(ii) 高確率パターンの欠如を強調する構造的クロスエントロピー比の2つの相補的な方法で安定性を測定する。
Pass@k、BLEU、CodeBLEUとは異なり、私たちのメトリクスは参照なし、言語非依存、実行非依存です。
- 参考スコア(独自算出の注目度): 4.812266013066678
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Assessing the stability of code generation from large language models (LLMs) is essential for judging their reliability in real-world development. We extend prior "structural-entropy concepts" to the program domain by pairing entropy with abstract syntax tree (AST) analysis. For any fixed prompt, we collect the multiset of depth-bounded subtrees of AST in each generated program and treat their relative frequencies as a probability distribution. We then measure stability in two complementary ways: (i) Jensen-Shannon divergence, a symmetric, bounded indicator of structural overlap, and (ii) a Structural Cross-Entropy ratio that highlights missing high-probability patterns. Both metrics admit structural-only and token-aware variants, enabling separate views on control-flow shape and identifier-level variability. Unlike pass@k, BLEU, or CodeBLEU, our metrics are reference-free, language-agnostic, and execution-independent. We benchmark several leading LLMs on standard code generation tasks, demonstrating that AST-driven structural entropy reveals nuances in model consistency and robustness. The method runs in O(n,d) time with no external tests, providing a lightweight addition to the code-generation evaluation toolkit.
- Abstract(参考訳): 大規模言語モデル(LLM)からのコード生成の安定性を評価することは、実際の開発における信頼性を判断するために不可欠である。
我々は、抽象構文木(AST)解析とペアリングエントロピーにより、事前の「構造-エントロピーの概念」をプログラム領域に拡張する。
任意の固定プロンプトに対して、各生成プログラムでASTの深さ有界部分木の多重集合を収集し、それらの相対周波数を確率分布として扱う。
次に、安定性を2つの相補的な方法で測定する。
(i)Jensen-Shannon発散、対称的、有界な構造重なりの指標、及び
(II)高確率パターンの欠如を強調する構造的クロスエントロピー比。
どちらのメトリクスも構造限定とトークン対応の亜種を認めており、制御フローの形状と識別子レベルの変動を別々に見ることができる。
Pass@k、BLEU、CodeBLEUとは異なり、私たちのメトリクスは参照なし、言語非依存、実行非依存です。
AST駆動型構造エントロピーがモデル一貫性とロバストネスのニュアンスを明らかにしていることを示す。
このメソッドは外部テストなしでO(n,d)時間で動作し、コード生成評価ツールキットに軽量な追加を提供する。
関連論文リスト
- UniT: Unified Multimodal Chain-of-Thought Test-time Scaling [85.590774707406]
統一モデルは単一のアーキテクチャ内でマルチモーダル理解と生成の両方を扱うことができるが、通常は出力を反復的に書き換えることなく単一のパスで操作する。
マルチモーダルなテストタイムスケーリングのためのフレームワークであるUniTを導入し、単一の統一モデルで複数のラウンドをまたいだ推論、検証、精査を可能にします。
論文 参考訳(メタデータ) (2026-02-12T18:59:49Z) - Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models [96.0074341403456]
LLM推論を改善するための実用的な方法として、推論時計算が再導入されている。
テスト時間スケーリング(TTS)アルゴリズムの多くは、自動回帰デコーディングに依存している。
そこで我々は,dLLM のための効率的な TTS フレームワーク Prism を提案する。
論文 参考訳(メタデータ) (2026-02-02T09:14:51Z) - Trust in One Round: Confidence Estimation for Large Language Models via Structural Signals [13.89434979851652]
大規模言語モデル(LLM)は、エラーが社会的、科学的、安全コストの高い領域にますます展開されている。
本稿では,出力の正確性を予測する単一パスモデル依存フレームワークであるStructure Confidenceを提案する。
論文 参考訳(メタデータ) (2026-02-01T02:35:59Z) - Task-Awareness Improves LLM Generations and Uncertainty [48.857040212979484]
ベイズ最適応答は、ビームサーチのような標準的な復号法より一貫して優れている。
我々の決定論的なフレームワークは、潜在応答構造を持つあらゆる問題に適用できる。
論文 参考訳(メタデータ) (2026-01-29T10:16:23Z) - UniDiff: A Unified Diffusion Framework for Multimodal Time Series Forecasting [90.47915032778366]
マルチモーダル時系列予測のための統合拡散フレームワークUniDiffを提案する。
コアには統一的で並列な融合モジュールがあり、単一のクロスアテンション機構がタイムスタンプからの構造化情報とテキストからのセマンティックコンテキストを統合する。
8つの領域にわたる実世界のベンチマークデータセットの実験は、提案したUniDiffモデルが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-12-08T05:36:14Z) - STED and Consistency Scoring: A Framework for Evaluating LLM Structured Output Reliability [11.095198847819573]
大規模言語モデル(LLM)は、構造化データ生成のためにますます多くデプロイされている。
LLM生成した構造化出力の整合性の評価と改善のための総合的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-27T02:49:52Z) - Dynamic Stability of LLM-Generated Code [6.120340803716395]
コード生成のためのLLMの現在の評価は、関数的に正しい解がアルゴリズムの複雑さにおいて著しく異なるという事実を見落としている。
本稿では,生成コードの動的安定性を評価するためのフレームワークを提案する。
コード生成における安定性を意識した目標と、堅牢で現実的な評価のためのテストケースを備えた新しいベンチマークが求められた。
論文 参考訳(メタデータ) (2025-11-07T09:58:06Z) - Learning Discrete Bayesian Networks with Hierarchical Dirichlet Shrinkage [52.914168158222765]
我々はDBNを学習するための包括的なベイズ的フレームワークについて詳述する。
我々は、並列ランゲヴィン提案を用いてマルコフ連鎖モンテカルロ(MCMC)アルゴリズムを新たに提案し、正確な後続サンプルを生成する。
原発性乳癌検体から予後ネットワーク構造を明らかにするために本手法を適用した。
論文 参考訳(メタデータ) (2025-09-16T17:24:35Z) - SEED: A Structural Encoder for Embedding-Driven Decoding in Time Series Prediction with LLMs [3.036179638516407]
組込み型デコードのための構造的エンコーダSEEDは,パッチ抽出のためのトークン対応エンコーダ,言語モデル埋め込みとパッチを整列するプロジェクションモジュール,タスク対応プロトタイプにパッチをマッピングするセマンティックプログラミング機構の4つの段階を統合している。
このモジュラーアーキテクチャは、推論から表現学習を分離し、数値パターンと意味論的推論の効率的なアライメントを可能にする。
論文 参考訳(メタデータ) (2025-06-25T06:40:14Z) - ConsistencyChecker: Tree-based Evaluation of LLM Generalization Capabilities [14.13459302125202]
大きな言語モデル(LLM)の一貫性を評価することは、信頼性を確保するために不可欠である。
従来の自己整合性メソッドは、自然言語の微妙な意味的変化や、コードや方程式の関数的シフトを見逃すことが多い。
可逆変換のシーケンスによる一貫性の測定を目的とした木に基づく評価フレームワークであるConsistencyCheckerを提案する。
論文 参考訳(メタデータ) (2025-06-14T07:18:33Z) - Inv-Entropy: A Fully Probabilistic Framework for Uncertainty Quantification in Language Models [5.6672926445919165]
大規模言語モデル(LLM)は自然言語処理を変換しているが、信頼性の高いデプロイメントには有効な不確実性定量化(UQ)が必要である。
既存のUQメソッドは多くの場合、確率論的基盤を欠いている。
本稿では, 与えられた出力に条件付き入力空間の多様性を評価することによって不確実性を定量的に評価する, 逆モデルに基づく完全確率的フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-11T13:02:17Z) - Enhancing LLMs for Time Series Forecasting via Structure-Guided Cross-Modal Alignment [12.319685395140862]
本稿では,時系列データと言語データで共有される状態遷移グラフ構造を逐次モーダルとして活用・整合するフレームワークを提案する。
複数のベンチマークの実験は、SGCMAが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-05-19T14:30:41Z) - Latent Semantic Consensus For Deterministic Geometric Model Fitting [109.44565542031384]
我々はLSC(Latent Semantic Consensus)と呼ばれる効果的な方法を提案する。
LSCは、モデルフィッティング問題をデータポイントとモデル仮説に基づく2つの潜在意味空間に定式化する。
LSCは、一般的な多構造モデルフィッティングのために、数ミリ秒以内で一貫した、信頼性の高いソリューションを提供することができる。
論文 参考訳(メタデータ) (2024-03-11T05:35:38Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - GFlowNet-EM for learning compositional latent variable models [115.96660869630227]
ラテントの後方のモデリングにおける重要なトレードオフは、表現性とトラクタブルな最適化の間にある。
非正規化密度からサンプリングするアルゴリズムであるGFlowNetsを提案する。
GFlowNetsをトレーニングして、後部から潜伏者へのサンプルをトレーニングすることにより、それらの強度をアモータライズされた変分アルゴリズムとして活用する。
論文 参考訳(メタデータ) (2023-02-13T18:24:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。