論文の概要: OODEval: Evaluating Large Language Models on Object-Oriented Design
- arxiv url: http://arxiv.org/abs/2601.07602v1
- Date: Mon, 12 Jan 2026 14:51:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.468579
- Title: OODEval: Evaluating Large Language Models on Object-Oriented Design
- Title(参考訳): OODEval:オブジェクト指向設計における大規模言語モデルの評価
- Authors: Bingxu Xiao, Yunwei Dong, Yiqi Tang, Manqing Zhang, Yifan Zhou, Chunyan Ma, Yepang Liu,
- Abstract要約: オブジェクト指向設計タスクにおいて,29の大規模言語モデル (LLM) を評価する。
トップパフォーマンスのLDMは、学部生の平均的なパフォーマンスとほぼ一致しているが、最高の人間デザイナーのレベルをはるかに下回っている。
- 参考スコア(独自算出の注目度): 10.295093285299403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large language models (LLMs) have driven extensive evaluations in software engineering. however, most prior work concentrates on code-level tasks, leaving software design capabilities underexplored. To fill this gap, we conduct a comprehensive empirical study evaluating 29 LLMs on object-oriented design (OOD) tasks. Owing to the lack of standardized benchmarks and metrics, we introduce OODEval, a manually constructed benchmark comprising 50 OOD tasks of varying difficulty, and OODEval-Human, the first human-rated OOD benchmark, which includes 940 undergraduate-submitted class diagrams evaluated by instructors. We further propose CLUE (Class Likeness Unified Evaluation), a unified metric set that assesses both global correctness and fine-grained design quality in class diagram generation. Using these benchmarks and metrics, we investigate five research questions: overall correctness, comparison with humans, model dimension analysis, task feature analysis, and bad case analysis. The results indicate that while LLMs achieve high syntactic accuracy, they exhibit substantial semantic deficiencies, particularly in method and relationship generation. Among the evaluated models, Qwen3-Coder-30B achieves the best overall performance, rivaling DeepSeek-R1 and GPT-4o, while Gemma3-4B-IT outperforms GPT-4o-Mini despite its smaller parameter scale. Although top-performing LLMs nearly match the average performance of undergraduates, they remain significantly below the level of the best human designers. Further analysis shows that parameter scale, code specialization, and instruction tuning strongly influence performance, whereas increased design complexity and lower requirement readability degrade it. Bad case analysis reveals common failure modes, including keyword misuse, missing classes or relationships, and omitted methods.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、ソフトウェア工学における広範な評価を促している。
しかしながら、以前の作業のほとんどはコードレベルのタスクに集中しており、ソフトウェア設計能力は過小評価されています。
このギャップを埋めるために、オブジェクト指向設計(OOD)タスクにおいて29のLLMを評価する総合的な実証的研究を行った。
標準化されたベンチマークとメトリクスが欠如しているため、難易度が異なる50のOODタスクからなる手作業によるベンチマークであるOODEvalと、インストラクターが評価した940の学部受験クラス図を含む最初の人格評価OODベンチマークであるOODEval-Humanを紹介した。
さらに,クラスダイアグラム生成における大域的正しさと細粒度設計品質の両方を評価する統一されたメトリックセットであるCLUE(Class Likeness Unified Evaluation)を提案する。
これらのベンチマークと指標を用いて、全体的な正しさ、人間との比較、モデル次元分析、タスク特徴分析、そしてケース分析の5つの研究課題を調査する。
その結果,LLMは構文的精度が高いが,特に手法や関係生成において,意味的欠陥がかなり大きいことが示唆された。
評価モデルの中では、Qwen3-Coder-30BはDeepSeek-R1やGPT-4oと競合し、Gemma3-4B-ITはパラメータスケールが小さいにもかかわらずGPT-4o-Miniを上回っている。
トップパフォーマンスのLDMは、学部生の平均的なパフォーマンスとほぼ一致しているが、最高の人間デザイナーのレベルをはるかに下回っている。
さらに分析したところ、パラメータスケール、コード特殊化、命令チューニングが性能に強く影響を与えているのに対して、設計の複雑さが増し、要求の可読性が低下していることがわかった。
悪いケース分析では、キーワードの誤用、クラスや関係の欠如、省略メソッドなど、一般的な障害モードが明らかになっている。
関連論文リスト
- Holistic Evaluation of State-of-the-Art LLMs for Code Generation [5.504955093712013]
DeepSeek-R1 と GPT-4.1 は、正確性、効率、堅牢性という点で他より一貫して優れている。
構文エラーや論理的欠陥,最適化アルゴリズムといった,一般的な障害シナリオを特定します。
論文 参考訳(メタデータ) (2025-12-19T23:29:05Z) - When Models Can't Follow: Testing Instruction Adherence Across 256 LLMs [0.0]
本稿では,20個のプロンプトを慎重に設計し,指示追従の評価を行う合理化評価フレームワークを提案する。
我々は2025年10月14日に行われた大規模な実証的研究を通じて、この枠組みを実証した。
本研究は、一貫した障害モードを明らかにし、特定の課題を呈する特定の命令タイプを特定する。
論文 参考訳(メタデータ) (2025-10-18T16:33:15Z) - Sustainability via LLM Right-sizing [21.17523328451591]
大規模言語モデル(LLM)はますます組織に組み込まれている。
本研究は,10の日常業務において,プロプライエタリでオープンウェイトなLDMを11個評価することによって,実証的な回答を提供する。
その結果, GPT-4oは高い性能を保ちながら, コストと環境のフットプリントが著しく高いことがわかった。
論文 参考訳(メタデータ) (2025-04-17T04:00:40Z) - IHEval: Evaluating Language Models on Following the Instruction Hierarchy [67.33509094445104]
命令階層は、システムメッセージからユーザメッセージ、会話履歴、ツール出力への優先順位を定めている。
その重要性にもかかわらず、このトピックは限定的な注目を集めており、命令階層に従うモデルの能力を評価するための包括的なベンチマークが欠如している。
IHEvalは、異なる優先順位の命令が一致または矛盾するケースをカバーする、新しいベンチマークです。
論文 参考訳(メタデータ) (2025-02-12T19:35:28Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。