Fugu-MT 論文翻訳(概要): Assessing GPT-4-Vision's Capabilities in UML-Based Code Generation

論文の概要: Assessing GPT-4-Vision's Capabilities in UML-Based Code Generation

arxiv url: http://arxiv.org/abs/2404.14370v1
Date: Mon, 22 Apr 2024 17:21:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-23 13:08:10.035932
Title: Assessing GPT-4-Vision's Capabilities in UML-Based Code Generation
Title（参考訳）: UMLに基づくコード生成におけるGPT-4-Visionの能力評価
Authors: Gábor Antal, Richárd Vozár, Rudolf Ferenc,
Abstract要約: GPT-4-Visionは最先端のディープラーニングモデルである。 UML(Unified Modeling Language)クラスダイアグラムを完全なJavaクラスファイルに変換することができる。
参考スコア（独自算出の注目度）: 0.5789654849162464
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The emergence of advanced neural networks has opened up new ways in automated code generation from conceptual models, promising to enhance software development processes. This paper presents a preliminary evaluation of GPT-4-Vision, a state-of-the-art deep learning model, and its capabilities in transforming Unified Modeling Language (UML) class diagrams into fully operating Java class files. In our study, we used exported images of 18 class diagrams comprising 10 single-class and 8 multi-class diagrams. We used 3 different prompts for each input, and we manually evaluated the results. We created a scoring system in which we scored the occurrence of elements found in the diagram within the source code. On average, the model was able to generate source code for 88% of the elements shown in the diagrams. Our results indicate that GPT-4-Vision exhibits proficiency in handling single-class UML diagrams, successfully transforming them into syntactically correct class files. However, for multi-class UML diagrams, the model's performance is weaker compared to single-class diagrams. In summary, further investigations are necessary to exploit the model's potential completely.
Abstract（参考訳）: 高度なニューラルネットワークの出現は、概念モデルから自動コード生成の新しい方法を開き、ソフトウェア開発プロセスを強化することを約束している。本稿では、最先端のディープラーニングモデルであるGPT-4-Visionの予備評価と、Unified Modeling Language(UML)クラス図を完全なJavaクラスファイルに変換する機能について述べる。そこで本研究では,10のシングルクラス図と8のマルチクラス図からなる18のクラス図のエクスポート画像を用いた。入力毎に3つの異なるプロンプトを使い、手動で結果を評価しました。ソースコード内のダイアグラムに現れる要素をスコアリングするシステムを作成しました。平均して、このモデルは図に示す要素の88%のソースコードを生成することができた。以上の結果から,GPT-4-Visionは単一クラスUML図の処理能力を示し,それらを構文的に正しいクラスファイルに変換することに成功した。しかし、マルチクラスのUMLダイアグラムの場合、モデルの性能はシングルクラスのダイアグラムよりも弱い。要約すると、モデルの可能性を完全に活用するには、さらなる調査が必要である。

関連論文リスト

TULIP: Towards Unified Language-Image Pretraining [60.99500935831526]
既存のCLIPライクなモデルの代替として,オープンソースでドロップイン可能なTを導入する。提案手法は, 生成データの拡張, 画像画像の強化, テキストコントラスト学習, 画像/テキスト再構成正規化を利用して, きめ細かい視覚的特徴を学習する。当社のアプローチでは、ベンチマーク全体で既存の最先端(SOTA)モデルを上回っています。
論文参考訳（メタデータ） (2025-03-19T17:58:57Z)
Unified Modeling Language Code Generation from Diagram Images Using Multimodal Large Language Models [0.41942958779358674]
本稿では,大規模マルチモーダル言語モデルを用いたコードの自動生成手法を提案する。ドメイン適応型MM-LLMはコード生成自動化のために動作し、最高のモデルではシーケンスダイアグラム上でBLEUとSSIMスコア0.779と0.942を達成した。
論文参考訳（メタデータ） (2025-03-15T23:20:26Z)
AutoPresent: Designing Structured Visuals from Scratch [99.766901203884]
エンド・ツー・エンドの画像生成とプログラム生成を様々なモデルでベンチマークする。スライド生成用のコードと7kペアの命令でトレーニングされた8B LlamaベースのモデルであるAutoPresentを開発した。
論文参考訳（メタデータ） (2025-01-01T18:09:32Z)
Improving Autoregressive Visual Generation with Cluster-Oriented Token Prediction [52.09472099976885]
IARは、LLMベースのビジュアル生成モデルのトレーニング効率と生成品質を向上させる改良された自動回帰ビジュアル生成方法である。提案手法は,モデルのトレーニング効率と性能を100Mから1.4Bに継続的に向上させ,同じFIDを達成しながらトレーニング時間を半減させる。
論文参考訳（メタデータ） (2025-01-01T15:58:51Z)
Assessing UML Models by ChatGPT: Implications for Education [9.11195766839205]
ソフトウェア工学(SE)の研究と実践において、本質的なモデリング方法論としてよく知られている。 ChatGPTのような生成AI技術の最近の進歩は、多くのSEタスクを自動化する新しい方法を生み出している。本稿では,モデルの品質評価におけるChatGPTの有効性と有効性を検討することを目的とする。
論文参考訳（メタデータ） (2024-12-23T00:28:33Z)
Language Models are Graph Learners [70.14063765424012]
言語モデル(LM)は、グラフニューラルネットワーク(GNN)やグラフトランスフォーマー(GT)など、ドメイン固有のモデルの優位性に挑戦している。本稿では,ノード分類タスクにおける最先端のGNNに匹敵する性能を実現するために,既製のLMを有効活用する手法を提案する。
論文参考訳（メタデータ） (2024-10-03T08:27:54Z)
SynChart: Synthesizing Charts from Language Models [50.73888371511983]
本研究は,LLMをデータ生成に単独で活用し,チャート理解に焦点をあてた競合するマルチモダリティモデルを開発する可能性を探る。約400万の多彩なチャートイメージと7500万以上の高密度アノテーションを含む大規模チャートデータセットであるSynChartを構築した。我々は,このデータセットを用いて4.2Bのグラフエキスパートモデルを訓練し,GPT-4Vを超え,ChartQAタスクでほぼGPT-4Oの性能を達成した。
論文参考訳（メタデータ） (2024-09-25T00:18:12Z)
Enabling Small Models for Zero-Shot Classification through Model Label Learning [50.68074833512999]
モデルと機能の間のギャップを埋める新しいパラダイムであるモデルラベル学習(MLL)を導入する。 7つの実世界のデータセットの実験により、MLLの有効性と効率が検証された。
論文参考訳（メタデータ） (2024-08-21T09:08:26Z)
From Image to UML: First Results of Image Based UML Diagram Generation Using LLMs [1.961305559606562]
ソフトウェア工学のプロセスでは、システムはまずモデリング言語を使って指定される。大規模言語モデル(LLM)は、与えられた図面からUMLモデルの形式表現を生成するために使用される。より具体的には、クラス図の画像を画像に表される実際のモデルに変換するための異なるLCMの能力を評価した。
論文参考訳（メタデータ） (2024-04-17T13:33:11Z)
Model Generation with LLMs: From Requirements to UML Sequence Diagrams [9.114284818139069]
本稿では,NL要求から特定のモデル,すなわちシーケンス図を生成するChatGPTの能力について検討する。本稿では,ChatGPTが生成した28種類の要求文書と異なるドメインのシーケンス図について検討する。以上の結果から, モデルが標準に適合し, 合理的な理解可能性を示す一方で, 要求条件に対する完全性や正当性は, しばしば課題となることが示唆された。
論文参考訳（メタデータ） (2024-04-09T15:07:25Z)
CogCoM: A Visual Language Model with Chain-of-Manipulations Reasoning [61.21923643289266]
カオス・オブ・マニピュレーション(Chain of Manipulations)は、視覚言語モデル(Vision-Language Models)が、エビデンスを段階的に解決するメカニズムである。トレーニング後、モデルは外部ツールを介さずに、本質的な操作(グラウンド、ズームインなど)を積極的に行うことで、様々な視覚的問題を解決することができる。トレーニングされたモデルである textbfCogCoM は、4つのカテゴリの9つのベンチマークで最先端のパフォーマンスを実現しています。
論文参考訳（メタデータ） (2024-02-06T18:43:48Z)
Vi(E)va LLM! A Conceptual Stack for Evaluating and Interpreting Generative AI-based Visualizations [1.709620026135923]
大規模言語モデル(LLM)は、可視化に関連する生成タスクをサポートするための興味深い選択肢となっている。本稿では,LLMを用いて生成した可視化の評価をモデル化する問題に対処する。本稿では,原子部品の評価を分解する理論評価スタックEvaLLMを提案する。
論文参考訳（メタデータ） (2024-02-03T14:28:55Z)
Class-level Structural Relation Modelling and Smoothing for Visual Representation Learning [12.247343963572732]
本稿では、視覚表現学習のためのbfクラスレベルの構造関係モデリングと平滑化というフレームワークを提案する。クラスレベルの関係モデリング、クラス対応グラフガイドサンプリング、グラフガイド表現学習モジュールが含まれる。実験では、構造化知識モデリングによる表現学習の有効性を実証し、CSRMSを任意の最先端の視覚的表現学習モデルに組み込むことにより、パフォーマンス向上を図っている。
論文参考訳（メタデータ） (2023-08-08T09:03:46Z)
Multi-View Class Incremental Learning [57.14644913531313]
マルチビュー学習(MVL)は、下流タスクのパフォーマンスを改善するためにデータセットの複数の視点から情報を統合することで大きな成功を収めている。本稿では,複数視点クラスインクリメンタルラーニング(MVCIL)と呼ばれる新しいパラダイムについて考察する。
論文参考訳（メタデータ） (2023-06-16T08:13:41Z)
Visual Instruction Tuning [79.70923292053097]
本稿では,言語のみの GPT-4 を用いてマルチモーダルな言語イメージ命令追跡データを生成する試みについて紹介する。このようなデータに対して,LLaVA: Large Language and Vision Assistantを導入する。科学QAを微調整すると、LLaVAとGPT-4の相乗効果は92.53%の新しい最先端精度を達成する。
論文参考訳（メタデータ） (2023-04-17T17:59:25Z)
Attribute-Modulated Generative Meta Learning for Zero-Shot Classification [52.64680991682722]
ゼロショット学習のためのAttribute-Modulated GenerAtive Meta-modelを提案する。本モデルは属性対応変調ネットワークと属性対応生成ネットワークから構成される。実験により,AMAZはZSLで3.8%,ZSLで5.1%改善し,ZSL設定を一般化した。
論文参考訳（メタデータ） (2021-04-22T04:16:43Z)
Classification of Reverse-Engineered Class Diagram and Forward-Engineered Class Diagram using Machine Learning [0.0]
ソフトウェア業界では、どのタイプのクラス図なのかを知ることが重要です。特定のプロジェクトで使われたダイアグラムは、知っておくべき重要な要素なのでしょうか? 本稿では,教師付き機械学習技術を用いてこの問題を解決することを提案する。
論文参考訳（メタデータ） (2020-11-14T14:56:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。