論文の概要: Can LLMs Produce Better Object-Oriented Designs than Human-Involved Development?
- arxiv url: http://arxiv.org/abs/2605.19901v1
- Date: Tue, 19 May 2026 14:32:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.400135
- Title: Can LLMs Produce Better Object-Oriented Designs than Human-Involved Development?
- Title(参考訳): LLMは人間にかかわる開発よりも優れたオブジェクト指向設計を創出できるか?
- Authors: Zushuai Zhang, Elliott Wen, Ewan Tempero,
- Abstract要約: 本研究の目的は,PreAI,PostAI,PureAIの3つの著者条件から,プロジェクトにおけるOODの品質を比較することである。
人間の関与したプロジェクトとは対照的に、PureAIプロジェクトはコードの臭いの密度が低く、全体的なサイズ、複雑さ、結合性の点で一般的にシンプルに見えます。
ポストAIは多くのOOD対策においてPreAIよりもPureAIに近づき、過度に単純化する傾向を示す。
- 参考スコア(独自算出の注目度): 0.6079137591620588
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Background: Large Language Models (LLMs) are increasingly used for code generation. However, their ability to generate multi-class projects that require object-oriented design (OOD) remains unclear, especially relative to projects developed with human involvement. Aims: The primary objective of this study is to compare OOD quality in projects from three authorship conditions: PreAI (human-involved projects produced before widespread LLM use), PostAI (human-involved projects produced after widespread LLM use), and PureAI (projects generated end-to-end by contemporary LLMs). Method: We conducted a comparative case study on a postgraduate Java assignment. Two offerings of the same assignment were selected as the PreAI and PostAI datasets. PureAI projects were generated using three contemporary LLMs. We analyzed OOD quality using project-level OOD metrics, code smell density, and domain modeling. Results: Relative to human-involved projects, PureAI projects show lower code smell density and generally appear simpler in terms of total size, complexity, and coupling. However, this is consistent with oversimplification, as it is associated with missing abstractions and weaker responsibility separation. PostAI is closer to PureAI than PreAI on many OOD measures and also shows tendencies toward oversimplification. Conclusions: Our findings indicate that appropriate human guidance on object-oriented decomposition and responsibility assignment remains important when LLMs are used for object-oriented design.
- Abstract(参考訳): 背景: 大規模言語モデル(LLM)は、コード生成にますます使われています。
しかしながら、オブジェクト指向設計(OOD)を必要とするマルチクラスプロジェクトを生成する能力は、特に人間の関与によって開発されたプロジェクトと比較して、まだ不明である。
Aims: 本研究の主な目的は, PreAI, PostAI, PureAIの3つの著作者条件からOODの品質を比較することである。
方法: 大学院Javaの課題について, 比較ケーススタディを行った。
同じ割り当ての2つのオファリングがPreAIデータセットとPostAIデータセットとして選択された。
純AIプロジェクトは3つの現代LLMを使用して作成された。
プロジェクトレベルのOODメトリクス、コードの臭い密度、ドメインモデリングを用いて、OODの品質を分析した。
結果: 人間の関与するプロジェクトに関連して、PureAIプロジェクトはコードの臭いの密度が低く、全体的なサイズ、複雑さ、結合性の点で一般的にシンプルに見えます。
しかし、これは過度な単純化と矛盾しない抽象化とより弱い責任分離に結びついている。
ポストAIは多くのOOD対策においてPreAIよりもPureAIに近づき、過度に単純化する傾向を示す。
結論: LLMがオブジェクト指向設計に使用される場合, オブジェクト指向の分解と責任割り当てに関する適切な人的指導が依然として重要であることが示唆された。
関連論文リスト
- OODEval: Evaluating Large Language Models on Object-Oriented Design [10.295093285299403]
オブジェクト指向設計タスクにおいて,29の大規模言語モデル (LLM) を評価する。
トップパフォーマンスのLDMは、学部生の平均的なパフォーマンスとほぼ一致しているが、最高の人間デザイナーのレベルをはるかに下回っている。
論文 参考訳(メタデータ) (2026-01-12T14:51:31Z) - LLM Agents Beyond Utility: An Open-Ended Perspective [50.809163251551894]
我々は、事前訓練されたLLMエージェントを、自身のタスクを生成し、知識を蓄積し、その環境と広範囲に相互作用する能力で強化する。
複雑なマルチステップ命令を確実に追跡し、実行中に情報を保存、再利用し、独自のタスクを提案し、解決することができる。
迅速な設計や反復的なタスク生成に敏感であり、自己表現を形成することができない。
論文 参考訳(メタデータ) (2025-10-16T10:46:54Z) - Empowering AI to Generate Better AI Code: Guided Generation of Deep Learning Projects with LLMs [4.616570111453259]
大規模言語モデル(LLM)は、ディープラーニングプロジェクト全体の生成に苦労する。
本稿では,ディープラーニングプロジェクトを生成するための新しい計画誘導型コード生成手法DLCodeGenを提案する。
論文 参考訳(メタデータ) (2025-04-21T13:09:25Z) - Trust at Your Own Peril: A Mixed Methods Exploration of the Ability of Large Language Models to Generate Expert-Like Systems Engineering Artifacts and a Characterization of Failure Modes [0.0]
そこでは,人間の専門家が作成したSEアーティファクトをベンチマークとして用いた経験的探索の結果を報告する。
次に、AI生成されたアーティファクトとベンチマークを比較するために、2倍の混合メソッドアプローチを採用しました。
2つの素材は非常に似ているように見えるが、AIが生成したアーティファクトは深刻な障害モードを示しており、検出は困難である。
論文 参考訳(メタデータ) (2025-02-13T17:05:18Z) - An Empirical Study on Usage and Perceptions of LLMs in a Software
Engineering Project [1.433758865948252]
大規模言語モデル(LLM)は人工知能の飛躍であり、人間の言語を用いたタスクに優れる。
本稿では、AI生成したコードを分析し、コード生成に使用するプロンプトと人間の介入レベルを分析し、コードをコードベースに統合する。
ソフトウェア開発の初期段階において,LSMが重要な役割を担っていることが示唆された。
論文 参考訳(メタデータ) (2024-01-29T14:32:32Z) - Human-Instruction-Free LLM Self-Alignment with Limited Samples [64.69906311787055]
本研究では,人間の関与なしに,大規模言語モデル(LLM)を反復的に自己調整するアルゴリズムを提案する。
既存の研究と異なり、我々のアルゴリズムは人造指示にも報酬にも依存せず、人間の関与を著しく減らしている。
提案手法は,LLMの自己一般化能力を解き明かし,ほぼゼロに近い人的監督と整合性を持たせることができることを示す。
論文 参考訳(メタデータ) (2024-01-06T14:00:12Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - An Empirical Study of AI-based Smart Contract Creation [4.801455786801489]
スマートコントラクト生成のためのChatGPTやGoogle Palm2のような大規模言語モデル(LLM)は、AIペアプログラマとして初めて確立されたインスタンスであるようだ。
本研究の目的は,LLMがスマートコントラクトに対して提供する生成コードの品質を評価することである。
論文 参考訳(メタデータ) (2023-08-05T21:38:57Z) - Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis,
and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。
本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。
我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文 参考訳(メタデータ) (2023-06-07T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。