論文の概要: Hierarchical Evaluation of Software Design Capabilities of Large Language Models of Code
- arxiv url: http://arxiv.org/abs/2511.20933v1
- Date: Tue, 25 Nov 2025 23:50:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.89992
- Title: Hierarchical Evaluation of Software Design Capabilities of Large Language Models of Code
- Title(参考訳): 大規模言語モデルのソフトウェア設計能力の階層的評価
- Authors: Mootez Saad, Boqi Chen, José Antonio Hernández López, Dániel Varró, Tushar Sharma,
- Abstract要約: 大規模言語モデル(LLM)は、ソフトウェアエンジニアリング領域でますます採用されているが、コア設計概念に対する彼らの理解の堅牢性は、まだ不明である。
さまざまなレベルのガイダンスの下で、設計の不十分なソフトウェアフラグメントを生成します。
結合に関する推論は脆く、ノイズの多いオープンエンドのシナリオでパフォーマンスが崩壊する。
Reasoning-Trace分析はこれらの障害モードを確認し、結合のためのテキスト認識的ショートカットと結合のためのより徹底的な(まだ失敗している)分析を明らかにする。
- 参考スコア(独自算出の注目度): 7.897548449569687
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are being increasingly adopted in the software engineering domain, yet the robustness of their grasp on core software design concepts remains unclear. We conduct an empirical study to systematically evaluate their understanding of cohesion (intra-module) and coupling (inter-module). We programmatically generate poorly designed code fragments and test the DeepSeek-R1 model family ($14$B, $32$B, $70$B) under varying levels of guidance, from simple \textit{Verification} to \textit{Guided} and \textit{Open-ended Generation}, while varying contextual noise by injecting distractor elements. While models exhibit a solid baseline understanding of both concepts in ideal conditions, their practical knowledge is fragile and highly asymmetrical. Reasoning about coupling proves brittle; performance collapses in noisy, open-ended scenarios, with F1 scores dropping by over $50\%$. In contrast, the models' analysis of cohesion is remarkably robust to internal noise in guided tasks, showing little performance degradation. However, this resilience also fails when all guidance is removed. Reasoning-trace analysis confirms these failure modes, revealing \textit{cognitive shortcutting} for coupling versus a more exhaustive (yet still failing) analysis for cohesion. To summarize, while LLMs can provide reliable assistance for recognizing design flaws, their ability to reason autonomously in noisy, realistic contexts is limited, highlighting the critical need for more scalable and robust program understanding capabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ソフトウェアエンジニアリング領域でますます採用されているが、コアソフトウェア設計概念に対する彼らの理解の堅牢性は、まだ不明である。
我々は,結合(イントラモジュール)と結合(インターモジュール)の理解を体系的に評価するための実証的研究を行う。
設計が不十分なコードフラグメントを生成してDeepSeek-R1モデルファミリ($14$B,$2$B,$70$B)を,単純な \textit{Verification} から \textit{Guided} や \textit{Open-ended Generation} まで,さまざまなレベルのガイダンスの下でテストします。
モデルは理想的な条件下で両方の概念をしっかりとしたベースライン理解を示すが、その実践的知識は脆弱で高度に非対称である。
結合に関する推論は不安定であり、ノイズの多いオープンエンドシナリオではパフォーマンスが崩壊し、F1スコアは50\%以上低下する。
対照的に、モデルによる凝集の解析はガイド付きタスクの内部ノイズに対して極めて堅牢であり、性能劣化が少ない。
しかしながら、このレジリエンスは、すべてのガイダンスを削除しても失敗する。
Reasoning-Trace分析はこれらの障害モードを確認し、結合のための‘textit{cognitive shortcutting}’と、結合のためのより徹底的な(まだ失敗している)分析を明らかにする。
要約すると、LLMは設計上の欠陥を認識するための信頼性の高い支援を提供するが、ノイズの多い状況で自律的に推論できる能力は限られており、よりスケーラブルで堅牢なプログラム理解機能に対する重要なニーズを強調している。
関連論文リスト
- RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark [71.3555284685426]
本稿では,双方向機能相乗効果を評価するためのベンチマークであるRealUnifyを紹介する。
RealUnifyは、10のカテゴリと32のサブタスクにまたがる、細心の注意を払ってアノテートされた1000のインスタンスで構成されている。
現在の統一モデルは、効果的な相乗効果を達成するのに依然として苦労しており、アーキテクチャの統一だけでは不十分であることを示している。
論文 参考訳(メタデータ) (2025-09-29T15:07:28Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - RationAnomaly: Log Anomaly Detection with Rationality via Chain-of-Thought and Reinforcement Learning [27.235259453535537]
RationAnomalyは、Chain-of-Thoughtファインチューニングと強化学習を相乗化することにより、ログの異常検出を強化する新しいフレームワークである。
コードとデータセットを含む、対応するリソースをリリースしました。
論文 参考訳(メタデータ) (2025-09-18T07:35:58Z) - Understanding Software Engineering Agents: A Study of Thought-Action-Result Trajectories [17.975121612118752]
大規模言語モデル(LLM)ベースのエージェントは、複雑なソフトウェアエンジニアリングタスクを自動化するためにますます採用されている。
本研究は,3種類のLLM系エージェントの思考-反感-反感の軌跡について,大規模な実証的研究を行った。
我々は,数量やトークン消費,反復的な行動系列,思考,行動,結果のセマンティックコヒーレンスといった重要な軌道特性を同定する。
論文 参考訳(メタデータ) (2025-06-23T16:34:52Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - Towards a Science of Causal Interpretability in Deep Learning for Software Engineering [0.32634122554914]
ソフトウエアエンジニアリングのための深層学習(DL4SE)における因果解釈性を達成するための論文演説
Dissertationがニューラルネットワークモデル(NCM)の新しいポストホック解釈方法であるDoCodeを導入
DoCodeは因果推論を使用して、モデル予測のプログラミング言語指向の説明を提供する。
論文 参考訳(メタデータ) (2025-05-21T02:13:11Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - Reasoning with LLMs for Zero-Shot Vulnerability Detection [0.9208007322096533]
textbfVulnSageは,多種多様な大規模オープンソースソフトウェアプロジェクトから収集した,総合的な評価フレームワークである。
このフレームワークは、関数レベル、ファイルレベル、関数間の複数の粒度解析をサポートする。
Baseline、Chain-of-context、Think、Think & verifyの4つの異なるゼロショットプロンプト戦略を採用している。
論文 参考訳(メタデータ) (2025-03-22T23:59:17Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。