論文の概要: Deterministic vs. Probabilistic Summarisation: An Empirical Trade-off Study in Design Pattern Centric Java Code
- arxiv url: http://arxiv.org/abs/2605.21943v1
- Date: Thu, 21 May 2026 03:20:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.072149
- Title: Deterministic vs. Probabilistic Summarisation: An Empirical Trade-off Study in Design Pattern Centric Java Code
- Title(参考訳): 決定論的対確率的要約:デザインパターン中心のJavaコードにおける実証的なトレードオフ
- Authors: Najam Nazar, Christoph Treude,
- Abstract要約: 自動コード要約のための決定論的(ヒューリスティックベース)と確率論的(LLMベース)パイプラインを比較した。
確率論的要約はより強い意味的アライメントとよりリッチな文脈的カバレッジを示し、決定論的アプローチはより簡潔で再現可能な出力を生成する。
- 参考スコア(独自算出の注目度): 9.627790144791668
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Background: Automated code summarisation supports program comprehension and documentation, yet the relative strengths and limitations of deterministic (heuristic-based) and probabilistic (LLM-based) pipelines remain unclear. Aims: This paper presents a controlled empirical comparison of these paradigms for intent-oriented design-pattern code summarisation. Method: Using design-pattern-centric Java code as a structured testbed (150 files from three open-source repositories covering nine patterns), we compare a rule-based natural language generation (NLG) pipeline, a Software Word Usage Model (SWUM)-based approach, and a probabilistic pipeline based on the Mixtral LLM. Summaries are evaluated against human references using BERTScore and cosine similarity, complemented by rubric-based judgements produced by Llama 3 across five dimensions: accuracy, conciseness, adequacy, code-context awareness, and design-pattern fidelity. Statistical analysis includes Wilcoxon signed-rank tests (with effect sizes), Friedman tests with post-hoc corrections, and Spearman correlation for sensitivity analysis of rubric consistency. Results: Probabilistic summaries show stronger semantic alignment and richer contextual coverage, while deterministic approaches produce more concise and fully reproducible outputs. Prompt-sensitivity and multi-run analyses indicate variability in LLM outputs, though relative trends remain stable. Conclusions: A clear trade-off emerges: probabilistic methods favour semantic depth and contextual accuracy, whereas deterministic pipelines are preferable for brevity and reproducibility. These findings provide practical guidance for selecting code summarisation techniques.
- Abstract(参考訳): 背景: 自動コード要約は、プログラムの理解とドキュメントをサポートするが、決定論的(ヒューリスティックベース)と確率論的(LLMベース)パイプラインの相対的な強みと制限は、まだ不明である。
Aims: 本論文は、意図指向設計パターンコード要約のための、これらのパラダイムの制御された経験的比較を示す。
方法: 設計パターン中心のJavaコードを構造化テストベッド(9つのパターンをカバーする3つのオープンソースリポジトリから150ファイル)として使用し,ルールベースの自然言語生成(NLG)パイプライン,ソフトウェアワード利用モデル(SWUM)ベースのアプローチ,Mixtral LLMに基づく確率的パイプラインを比較した。
補足はBERTScoreとコサイン類似性を用いて人間の参照に対して評価され、Llama 3が生成したルーブリックに基づく判断によって、正確性、簡潔性、妥当性、コードコンテキスト認識、デザインパターンの忠実さの5次元にわたって補完される。
統計分析にはウィルコクソン符号ランク試験(効果サイズ)、ポストホック補正を伴うフリードマン試験、ルーリック一貫性の感度解析のためのスピアマン相関がある。
結果:確率的要約はより強い意味的アライメントとよりリッチな文脈的カバレッジを示し、決定論的アプローチはより簡潔で再現可能な出力を生成する。
プロンプト感度およびマルチラン解析は, 相対的傾向は安定だが, LLM出力の変動性を示す。
結論: 明確なトレードオフ: 確率的手法は意味的な深さと文脈的精度を好み、決定論的パイプラインは簡潔さと再現性に好適である。
これらの知見は、コード要約手法を選択するための実践的なガイダンスを提供する。
関連論文リスト
- LLMbench: A Comparative Close Reading Workbench for Large Language Models [0.0]
LLMbenchは、大規模言語モデル(LLM)の出力を比較検討するためのブラウザベースのワークベンチである。
本稿では、ツールのアーキテクチャ、その6つのモード、その設計の根拠を説明し、現在人文科学やAIの社会科学的読解に不足しているログ確率データが、生成型AIモデルの重要な研究のための重要なリソースである、と論じる。
論文 参考訳(メタデータ) (2026-04-16T20:32:13Z) - Beyond Accuracy: Characterizing Code Comprehension Capabilities in (Large) Language Models [4.841487377596519]
本稿では,Large Language Modelsのコード理解性能が従来の人間中心のソフトウェアメトリクスと一致しているかを検討する。
コード理解をバイナリインプット・アウトプット整合性タスクとして再編成する診断フレームワークを導入する。
論文 参考訳(メタデータ) (2026-01-19T10:58:24Z) - Variance-Aware LLM Annotation for Strategy Research: Sources, Diagnostics, and a Protocol for Reliable Measurement [0.3228822469249803]
大規模言語モデル(LLM)は、戦略研究者が大規模にテキストを注釈付けするための強力なツールを提供する。
しかし、LCM生成ラベルを決定論的見落としとして扱うことは、かなり不安定である。
我々は,構成仕様,インターフェース効果,モデル嗜好,出力抽出,システムレベルの集約という,5つのばらつき源を診断する。
論文 参考訳(メタデータ) (2025-12-02T18:02:20Z) - Harmonic Token Projection (HTP): A Vocabulary-Free, Training-Free, Deterministic, and Reversible Embedding Methodology [0.0]
Harmonic Token Projection (HTP) は、訓練、語彙、パラメータなしでテキスト埋め込みを生成するための可逆的で決定論的フレームワークである。
HTPは英語でrho = 0.68のスピアマン相関を達成し、10言語で安定した性能を維持している。
これは有意義な意味関係が決定論的幾何学から出現し、データ駆動型埋め込みの透過的で効率的な代替手段を提供することを示している。
論文 参考訳(メタデータ) (2025-11-10T20:51:18Z) - Using LLMs for Explaining Sets of Counterfactual Examples to Final Users [0.0]
自動意思決定シナリオでは、因果推論手法は基礎となるデータ生成プロセスを分析することができる。
カウンターファクトな例では、最小限の要素が変更される仮説的なシナリオを探求する。
本稿では,アクションの自然言語説明を生成するために,反事実を用いた新しい多段階パイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-27T15:13:06Z) - Balancing Diversity and Risk in LLM Sampling: How to Select Your Method and Parameter for Open-Ended Text Generation [60.493180081319785]
本稿では,各復号ステップにおける多様性とリスクのトレードオフを考慮し,トラクションサンプリング手法のキャパシティを推定する体系的手法を提案する。
本研究は,既存のトラクションサンプリング手法を総合的に比較し,パラメータ選択のための実用的なユーザガイドとして機能する。
論文 参考訳(メタデータ) (2024-08-24T14:14:32Z) - Log Probabilities Are a Reliable Estimate of Semantic Plausibility in Base and Instruction-Tuned Language Models [50.15455336684986]
意味的妥当性を評価するため,LogProbsの有効性と基本的なプロンプトを評価した。
LogProbsは、直接ゼロショットプロンプトよりも、より信頼性の高いセマンティックな妥当性を提供する。
我々は,プロンプトベースの評価の時代においても,LogProbsは意味的妥当性の有用な指標である,と結論付けた。
論文 参考訳(メタデータ) (2024-03-21T22:08:44Z) - Prototype-based Aleatoric Uncertainty Quantification for Cross-modal
Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。
しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。
本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。