Fugu-MT 論文翻訳(概要): Benchmarking and Evaluating VLMs for Software Architecture Diagram Understanding

論文の概要: Benchmarking and Evaluating VLMs for Software Architecture Diagram Understanding

arxiv url: http://arxiv.org/abs/2604.04009v1
Date: Sun, 05 Apr 2026 07:54:18 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-07 15:49:18.871822
Title: Benchmarking and Evaluating VLMs for Software Architecture Diagram Understanding
Title（参考訳）: ソフトウェアアーキテクチャ図理解のためのVLMのベンチマークと評価
Authors: Shuyin Ouyang, Jie M. Zhang, Jingzhi Gong, Gunel Jahangirova, Mohammad Reza Mousavi, Jack Johns, Beum Seuk Lee, Adam Ziolkowski, Botond Virginas, Joost Noppen,
Abstract要約: ソフトウェアアーキテクチャ図は、ソフトウェア開発ライフサイクル全体を通してシステム構造、振る舞い、データ組織を伝達するための重要な設計成果物です。本稿では,ソフトウェアアーキテクチャ図理解のためのベンチマークであるSADUを,汎用画像ではなく構造化ソフトウェアエンジニアリングアーティファクトとしてアーキテクチャ図上の最新の視覚言語モデル(VLM)を評価する。
参考スコア（独自算出の注目度）: 6.7195738068448625
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Software architecture diagrams are important design artifacts for communicating system structure, behavior, and data organization throughout the software development lifecycle. Although recent progress in large language models has substantially advanced code-centric software engineering tasks such as code generation, testing, and maintenance, the ability of modern vision-language models (VLMs) to understand software architecture diagrams remains underexplored. To address this gap, we present SADU, a benchmark for Software Architecture Diagram Understanding that evaluates VLMs on architecture diagrams as structured software engineering artifacts rather than generic images. SADU contains 154 carefully curated diagrams spanning behavioral, structural, and ER diagrams, paired with structured annotations and 2,431 question-answer tasks covering counting and retrieval reasoning. We evaluate 11 state-of-the-art VLMs from the Gemini, Claude, GPT, and Qwen families. Our results show that software architecture diagram understanding remains challenging for current models: the best-performing model gemini-3-flash-preview achieves only 70.18\% accuracy, while gpt-4o-mini only achieves 17.77\% accuracy. The results further reveal the weaknesses in diagram reasoning and visual relation grounding, highlighting a gap between current VLMs and the needs of design-stage software engineering. SADU provides a foundation for future research on diagram-aware AI systems and more faithful AI-assisted software engineering workflows.
Abstract（参考訳）: ソフトウェアアーキテクチャ図は、ソフトウェア開発ライフサイクル全体を通してシステム構造、振る舞い、データ組織を伝達するための重要な設計成果物です。大規模言語モデルの最近の進歩は、コード生成、テスト、保守といったコード中心のソフトウェアエンジニアリングタスクが大幅に進歩しているが、ソフトウェアアーキテクチャ図を理解するための現代のビジョン言語モデル(VLM)の能力は、まだ未熟である。このギャップに対処するため,アーキテクチャ図上のVLMを汎用画像ではなく構造化ソフトウェアエンジニアリング成果物として評価するソフトウェアアーキテクチャ図理解のベンチマークであるSADUを提案する。 SADUは、動作図、構造図、ER図にまたがる154の精巧なキュレート図と、構造化アノテーションと組み合わせた2,431の質問応答タスクを含んでいる。 Gemini, Claude, GPT, Qwenの11種類の最先端VLMを評価した。評価モデルである gemini-3-flash-preview の精度は 70.18 %,gpt-4o-mini の精度は 17.77 % である。結果はさらに、図の推論と視覚的関係の基盤化の弱点を明らかにし、現在のVLMと設計段階のソフトウェアエンジニアリングの必要性のギャップを浮き彫りにしている。 SADUは、ダイアグラム対応AIシステムと、より忠実なAI支援ソフトウェアエンジニアリングワークフローに関する将来の研究の基盤を提供する。

関連論文リスト

How Well Do Models Follow Visual Instructions? VIBE: A Systematic Benchmark for Visual Instruction-Driven Image Editing [56.60465182650588]
我々は,3段階の相互作用階層を導入し,決定的接地,形態的操作,因果推論を捉える。本稿では,スケーラブルできめ細かい評価を実現するために,タスク固有のメトリクスを備えた堅牢なLMM-as-a-judge評価フレームワークを提案する。プロプライエタリなモデルは早期の視覚指示追従能力を示し、一貫してオープンソースモデルを上回っていることがわかった。
論文参考訳（メタデータ） (2026-02-02T09:24:45Z)
Generating Software Architecture Description from Source Code using Reverse Engineering and Large Language Model [2.6126272668390373]
ソフトウェアアーキテクチャ記述(SAD)は、現代のソフトウェアシステムの本質的な複雑さを管理するために不可欠である。 SADは、しばしばシステムの実際の実装に不整合、時代遅れ、あるいは不整合である。逆エンジニアリング(RE)技術とLarge Language Model(LLM)を統合し,ソースコードからSADを半自動生成する手法を提案する。
論文参考訳（メタデータ） (2025-11-07T11:35:46Z)
Software Architecture Meets LLMs: A Systematic Literature Review [4.28281840272851]
本稿では,ソフトウェアアーキテクチャにおける大規模言語モデルの利用について,系統的な文献レビューを行う。 LLMは、様々なソフトウェアアーキテクチャタスクにますます適用されているが、アーキテクチャ設計からソースコードを生成するなど、いくつかの領域は未探索のままである。
論文参考訳（メタデータ） (2025-05-22T14:00:29Z)
Assessing LLMs for Front-end Software Architecture Knowledge [0.0]
大規模言語モデル(LLM)は、ソフトウェア開発タスクの自動化において大きな可能性を証明している。本研究では,VIPER アーキテクチャ内の構造を理解し,再現し,生成する LLM の機能について検討する。実験の結果、ChatGPT 4 Turbo 2024-04-09 を用いて、LLM は評価や作成といった高次タスクに優れていたが、アーキテクチャの詳細の正確な検索を必要とする低次タスクでは課題に直面していたことが明らかとなった。
論文参考訳（メタデータ） (2025-02-26T19:33:35Z)
Semantic Code Graph -- an information model to facilitate software comprehension [0.0]
メンテナンスを容易にし、関連するコストを削減するために、コード理解プロセスを加速する必要性が高まっています。さまざまなコード構造モデルがすでに存在していますが、ソースコードを密接に表現するモデルが驚くほど不足しています。本稿では,コード依存関係の詳細な抽象表現を提供する情報モデルであるSemantic Code Graph (SCG)を提案する。
論文参考訳（メタデータ） (2023-10-03T15:09:49Z)
Enhancing Architecture Frameworks by Including Modern Stakeholders and their Views/Viewpoints [48.87872564630711]
データサイエンスと機械学習に関連する関心事、例えばデータサイエンティストやデータエンジニアの利害関係者は、まだ既存のアーキテクチャフレームワークには含まれていない。 10か国25以上の組織から61名の被験者を対象に調査を行った。
論文参考訳（メタデータ） (2023-08-09T21:54:34Z)
Software Vulnerability Detection via Deep Learning over Disaggregated Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文参考訳（メタデータ） (2021-09-07T21:24:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。