論文の概要: Unified Modeling Language Code Generation from Diagram Images Using Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2503.12293v1
- Date: Sat, 15 Mar 2025 23:20:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 16:00:26.184907
- Title: Unified Modeling Language Code Generation from Diagram Images Using Multimodal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルを用いたダイアグラム画像からの統一モデリング言語コード生成
- Authors: Averi Bates, Ryan Vavricka, Shane Carleton, Ruosi Shao, Chongle Pan,
- Abstract要約: 本稿では,大規模マルチモーダル言語モデルを用いたコードの自動生成手法を提案する。
ドメイン適応型MM-LLMはコード生成自動化のために動作し、最高のモデルではシーケンスダイアグラム上でBLEUとSSIMスコア0.779と0.942を達成した。
- 参考スコア(独自算出の注目度): 0.41942958779358674
- License:
- Abstract: The Unified Modeling Language is a standardized visual language widely used for modeling and documenting the design of software systems. Although many tools generate UML diagrams from UML code, generating executable UML code from image-based UML diagrams remains challenging. This paper proposes a new approach to generate UML code using a large multimodal language model automatically. Synthetic UML activity and sequence diagram datasets were created to train and test the model. We compared standard fine-tuning with LoRA techniques to optimize base models. The experiments measured code generation accuracy across different model sizes and training strategies. These results demonstrated that domain-adapted MM-LLMs perform for UML code generation automation, whereby, at the best model, it achieved BLEU and SSIM scores of 0.779 and 0.942 on sequence diagrams. This will enable the modernization of legacy systems and decrease the manual effort in software development workflows.
- Abstract(参考訳): 統一モデリング言語(Unified Modeling Language)は、ソフトウェアシステムの設計のモデリングと文書化に広く使われている標準化されたビジュアル言語である。
多くのツールはUMLコードからUMLダイアグラムを生成するが、画像ベースのUMLダイアグラムから実行可能なUMLコードを生成することは依然として困難である。
本稿では,大規模マルチモーダル言語モデルを用いたUMLコードの自動生成手法を提案する。
モデルをトレーニングし、テストするために、合成UMLアクティビティとシーケンス図データセットが作成されました。
ベースモデルを最適化するために,標準微調整とLoRA技術を比較した。
実験では、異なるモデルサイズとトレーニング戦略でコード生成の精度を測定した。
これらの結果は、ドメイン適応型MM-LLMがUMLコード生成自動化に有効であることを示し、最高のモデルでは、シーケンス図上でBLEUとSSIMのスコアが0.779、0.942に達した。
これにより、レガシーシステムの近代化と、ソフトウェア開発ワークフローにおける手作業の削減が可能になる。
関連論文リスト
- Assessing UML Models by ChatGPT: Implications for Education [9.11195766839205]
ソフトウェア工学(SE)の研究と実践において、本質的なモデリング方法論としてよく知られている。
ChatGPTのような生成AI技術の最近の進歩は、多くのSEタスクを自動化する新しい方法を生み出している。
本稿では,モデルの品質評価におけるChatGPTの有効性と有効性を検討することを目的とする。
論文 参考訳(メタデータ) (2024-12-23T00:28:33Z) - SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。
トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。
コードとモデルはリリースされます。
論文 参考訳(メタデータ) (2024-12-12T18:59:26Z) - Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation [56.75665429851673]
本稿では,人間とLLMの選好アライメントという2つのユニークな視点から導いた,新しい命令キュレーションアルゴリズムを提案する。
実験により,合成マルチモーダル命令を最大90%圧縮することにより,モデル性能の維持や改善が可能であることが示された。
論文 参考訳(メタデータ) (2024-09-27T08:20:59Z) - UICoder: Finetuning Large Language Models to Generate User Interface Code through Automated Feedback [21.858896845159208]
大規模言語モデル(LLM)は、視覚的に関連する設計をコンパイルし、生成するUIコードを生成するのに苦労する。
生成を改善するための既存のアプローチは、高価な人間のフィードバックやプロプライエタリなモデルを蒸留することに依存している。
提案手法は,既存のLLMから始まり,大規模合成データセットを自己生成することにより,改良されたモデルを反復的に生成する。
論文 参考訳(メタデータ) (2024-06-11T21:53:46Z) - Assessing GPT-4-Vision's Capabilities in UML-Based Code Generation [0.5789654849162464]
GPT-4-Visionは最先端のディープラーニングモデルである。
UML(Unified Modeling Language)クラスダイアグラムを完全なJavaクラスファイルに変換することができる。
論文 参考訳(メタデータ) (2024-04-22T17:21:24Z) - From Image to UML: First Results of Image Based UML Diagram Generation Using LLMs [1.961305559606562]
ソフトウェア工学のプロセスでは、システムはまずモデリング言語を使って指定される。
大規模言語モデル(LLM)は、与えられた図面からUMLモデルの形式表現を生成するために使用される。
より具体的には、クラス図の画像を画像に表される実際のモデルに変換するための異なるLCMの能力を評価した。
論文 参考訳(メタデータ) (2024-04-17T13:33:11Z) - Reformulating Vision-Language Foundation Models and Datasets Towards
Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。
UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文 参考訳(メタデータ) (2023-10-01T12:35:18Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality [95.76661165594884]
mPLUG-Owlは、大規模言語モデル(LLM)にマルチモーダル能力を持たせる訓練パラダイムである。
トレーニングパラダイムは、LLMの助けを借りて視覚知識を学ぶ、画像とテキストの整列のための2段階の手法を含む。
実験の結果,本モデルは既存のマルチモーダルモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-04-27T13:27:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。