Fugu-MT 論文翻訳(概要): Hierarchical Evaluation of Software Design Capabilities of Large Language Models of Code

論文の概要: Hierarchical Evaluation of Software Design Capabilities of Large Language Models of Code

arxiv url: http://arxiv.org/abs/2511.20933v1
Date: Tue, 25 Nov 2025 23:50:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-27 18:37:58.89992
Title: Hierarchical Evaluation of Software Design Capabilities of Large Language Models of Code
Title（参考訳）: 大規模言語モデルのソフトウェア設計能力の階層的評価
Authors: Mootez Saad, Boqi Chen, José Antonio Hernández López, Dániel Varró, Tushar Sharma,
Abstract要約: 大規模言語モデル(LLM)は、ソフトウェアエンジニアリング領域でますます採用されているが、コア設計概念に対する彼らの理解の堅牢性は、まだ不明である。さまざまなレベルのガイダンスの下で、設計の不十分なソフトウェアフラグメントを生成します。結合に関する推論は脆く、ノイズの多いオープンエンドのシナリオでパフォーマンスが崩壊する。 Reasoning-Trace分析はこれらの障害モードを確認し、結合のためのテキスト認識的ショートカットと結合のためのより徹底的な(まだ失敗している)分析を明らかにする。
参考スコア（独自算出の注目度）: 7.897548449569687
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) are being increasingly adopted in the software engineering domain, yet the robustness of their grasp on core software design concepts remains unclear. We conduct an empirical study to systematically evaluate their understanding of cohesion (intra-module) and coupling (inter-module). We programmatically generate poorly designed code fragments and test the DeepSeek-R1 model family ($14$B, $32$B, $70$B) under varying levels of guidance, from simple \textit{Verification} to \textit{Guided} and \textit{Open-ended Generation}, while varying contextual noise by injecting distractor elements. While models exhibit a solid baseline understanding of both concepts in ideal conditions, their practical knowledge is fragile and highly asymmetrical. Reasoning about coupling proves brittle; performance collapses in noisy, open-ended scenarios, with F1 scores dropping by over $50\%$. In contrast, the models' analysis of cohesion is remarkably robust to internal noise in guided tasks, showing little performance degradation. However, this resilience also fails when all guidance is removed. Reasoning-trace analysis confirms these failure modes, revealing \textit{cognitive shortcutting} for coupling versus a more exhaustive (yet still failing) analysis for cohesion. To summarize, while LLMs can provide reliable assistance for recognizing design flaws, their ability to reason autonomously in noisy, realistic contexts is limited, highlighting the critical need for more scalable and robust program understanding capabilities.
Abstract（参考訳）: 大規模言語モデル(LLM)は、ソフトウェアエンジニアリング領域でますます採用されているが、コアソフトウェア設計概念に対する彼らの理解の堅牢性は、まだ不明である。我々は,結合(イントラモジュール)と結合(インターモジュール)の理解を体系的に評価するための実証的研究を行う。設計が不十分なコードフラグメントを生成してDeepSeek-R1モデルファミリ($14$B,$2$B,$70$B)を,単純な \textit{Verification} から \textit{Guided} や \textit{Open-ended Generation} まで,さまざまなレベルのガイダンスの下でテストします。モデルは理想的な条件下で両方の概念をしっかりとしたベースライン理解を示すが、その実践的知識は脆弱で高度に非対称である。結合に関する推論は不安定であり、ノイズの多いオープンエンドシナリオではパフォーマンスが崩壊し、F1スコアは50\%以上低下する。対照的に、モデルによる凝集の解析はガイド付きタスクの内部ノイズに対して極めて堅牢であり、性能劣化が少ない。しかしながら、このレジリエンスは、すべてのガイダンスを削除しても失敗する。 Reasoning-Trace分析はこれらの障害モードを確認し、結合のための‘textit{cognitive shortcutting}’と、結合のためのより徹底的な(まだ失敗している)分析を明らかにする。要約すると、LLMは設計上の欠陥を認識するための信頼性の高い支援を提供するが、ノイズの多い状況で自律的に推論できる能力は限られており、よりスケーラブルで堅牢なプログラム理解機能に対する重要なニーズを強調している。

関連論文リスト

OMG-Agent: Toward Robust Missing Modality Generation with Decoupled Coarse-to-Fine Agentic Workflows [9.617220633655716]
textbfunderlineOmni-textbfunderlineModality textbfunderlineGeneration Agent (textbfOMG-Agent)について述べる。
論文参考訳（メタデータ） (2026-02-04T02:25:40Z)
CoT-Seg: Rethinking Segmentation with Chain-of-Thought Reasoning and Self-Correction [50.67483317563736]
本稿では,段階的に考察し,必要な情報を検索し,結果を生成し,自己評価を行い,結果を洗練するシステムを提案する。 CoT-Segは、思考の連鎖推論と自己補正を組み合わせることで、推論セグメンテーションを再考する、トレーニング不要のフレームワークである。
論文参考訳（メタデータ） (2026-01-24T11:41:54Z)
CoG: Controllable Graph Reasoning via Relational Blueprints and Failure-Aware Refinement over Knowledge Graphs [53.199517625701475]
CoGはDual-Process Theoryにインスパイアされたトレーニング不要のフレームワークで、直観と熟考の相互作用を模倣している。 CoGは精度と効率の両方において最先端のアプローチを著しく上回っている。
論文参考訳（メタデータ） (2026-01-16T07:27:40Z)
Robust-R1: Degradation-Aware Reasoning for Robust Visual Understanding [54.05243949024302]
既存の堅牢なMLLMは、視覚エンコーダの一般化にのみ焦点をあてた暗黙のトレーニング/適応に依存している。本稿では,構造的推論連鎖による視覚的劣化を明示的にモデル化する新しいフレームワークであるRobust-R1を提案する。提案手法は, (i) 劣化を考慮した推論基盤の微調整, (ii) 劣化パラメータを正確に知覚するための報酬駆動アライメント, (iii) 劣化強度に適応した動的推論深度スケーリングの2つを統合した。
論文参考訳（メタデータ） (2025-12-19T12:56:17Z)
SEAL: Self-Evolving Agentic Learning for Conversational Question Answering over Knowledge Graphs [28.59157823781425]
SEALは、自己進化型エージェント学習に基づく、2段階のセマンティックパーシングフレームワークである。 SEALは、特にマルチホップ推論、比較、集約タスクにおいて、最先端のパフォーマンスを達成する。その結果, 構造精度と計算効率の両面で有意な向上が認められた。
論文参考訳（メタデータ） (2025-12-04T14:52:30Z)
RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark [71.3555284685426]
本稿では,双方向機能相乗効果を評価するためのベンチマークであるRealUnifyを紹介する。 RealUnifyは、10のカテゴリと32のサブタスクにまたがる、細心の注意を払ってアノテートされた1000のインスタンスで構成されている。現在の統一モデルは、効果的な相乗効果を達成するのに依然として苦労しており、アーキテクチャの統一だけでは不十分であることを示している。
論文参考訳（メタデータ） (2025-09-29T15:07:28Z)
Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。 SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文参考訳（メタデータ） (2025-09-20T17:09:14Z)
RationAnomaly: Log Anomaly Detection with Rationality via Chain-of-Thought and Reinforcement Learning [27.235259453535537]
RationAnomalyは、Chain-of-Thoughtファインチューニングと強化学習を相乗化することにより、ログの異常検出を強化する新しいフレームワークである。コードとデータセットを含む、対応するリソースをリリースしました。
論文参考訳（メタデータ） (2025-09-18T07:35:58Z)
Understanding Software Engineering Agents: A Study of Thought-Action-Result Trajectories [17.975121612118752]
大規模言語モデル(LLM)ベースのエージェントは、複雑なソフトウェアエンジニアリングタスクを自動化するためにますます採用されている。本研究は,3種類のLLM系エージェントの思考-反感-反感の軌跡について,大規模な実証的研究を行った。我々は,数量やトークン消費,反復的な行動系列,思考,行動,結果のセマンティックコヒーレンスといった重要な軌道特性を同定する。
論文参考訳（メタデータ） (2025-06-23T16:34:52Z)
PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文参考訳（メタデータ） (2025-05-29T17:55:49Z)
Towards a Science of Causal Interpretability in Deep Learning for Software Engineering [0.32634122554914]
ソフトウエアエンジニアリングのための深層学習(DL4SE)における因果解釈性を達成するための論文演説 Dissertationがニューラルネットワークモデル(NCM)の新しいポストホック解釈方法であるDoCodeを導入 DoCodeは因果推論を使用して、モデル予測のプログラミング言語指向の説明を提供する。
論文参考訳（メタデータ） (2025-05-21T02:13:11Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
Reasoning with LLMs for Zero-Shot Vulnerability Detection [0.9208007322096533]
textbfVulnSageは,多種多様な大規模オープンソースソフトウェアプロジェクトから収集した,総合的な評価フレームワークである。このフレームワークは、関数レベル、ファイルレベル、関数間の複数の粒度解析をサポートする。 Baseline、Chain-of-context、Think、Think & verifyの4つの異なるゼロショットプロンプト戦略を採用している。
論文参考訳（メタデータ） (2025-03-22T23:59:17Z)
Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。因果関係はこれらの課題を体系的に解決するための理想的な枠組みを提供します
論文参考訳（メタデータ） (2025-02-07T17:01:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。