論文の概要: Text2Arch: A Dataset for Generating Scientific Architecture Diagrams from Natural Language Descriptions
- arxiv url: http://arxiv.org/abs/2604.14941v1
- Date: Thu, 16 Apr 2026 12:36:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.891099
- Title: Text2Arch: A Dataset for Generating Scientific Architecture Diagrams from Natural Language Descriptions
- Title(参考訳): Text2Arch: 自然言語記述から科学アーキテクチャ図を生成するデータセット
- Authors: Shivank Garg, Sankalp Mittal, Manish Gupta,
- Abstract要約: 意味的忠実度の高いテキストから科学的アーキテクチャ図を自動的に生成するシステムは、複数のアプリケーションで有用である。
クリーンな大規模オープンアクセスデータセットは存在せず、このタスクに効果的なオープンモデルがないことを意味する。
コード、データ、モデルを公開しています。
- 参考スコア(独自算出の注目度): 8.259454114005989
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Communicating complex system designs or scientific processes through text alone is inefficient and prone to ambiguity. A system that automatically generates scientific architecture diagrams from text with high semantic fidelity can be useful in multiple applications like enterprise architecture visualization, AI-driven software design, and educational content creation. Hence, in this paper, we focus on leveraging language models to perform semantic understanding of the input text description to generate intermediate code that can be processed to generate high-fidelity architecture diagrams. Unfortunately, no clean large-scale open-access dataset exists, implying lack of any effective open models for this task. Hence, we contribute a comprehensive dataset, \system, comprising scientific architecture images, their corresponding textual descriptions, and associated DOT code representations. Leveraging this resource, we fine-tune a suite of small language models, and also perform in-context learning using GPT-4o. Through extensive experimentation, we show that \system{} models significantly outperform existing baseline models like DiagramAgent and perform at par with in-context learning-based generations from GPT-4o. We make the code, data and models publicly available.
- Abstract(参考訳): 複雑なシステム設計や科学過程をテキストだけでコミュニケーションすることは非効率でありあいまいである。
意味的忠実度の高いテキストから科学アーキテクチャ図を自動的に生成するシステムは、エンタープライズアーキテクチャの可視化、AI駆動のソフトウェア設計、教育コンテンツ作成など、複数のアプリケーションで有用である。
そこで本稿では,高忠実度アーキテクチャ図を生成するために処理可能な中間コードを生成するために,言語モデルを活用して入力テキスト記述の意味的理解を行う。
残念ながら、大規模なオープンアクセスデータセットは存在しないため、このタスクに効果的なオープンモデルがないことを意味する。
そこで我々は,科学的アーキテクチャイメージと対応するテキスト記述,および関連するDOTコード表現を含む包括的データセットである‘system’をコントリビュートする。
このリソースを活用することで、小さな言語モデル群を微調整し、GPT-4oを使ってコンテキスト内学習を行う。
実験により, システム{}モデルはダイアグラムAgentのような既存のベースラインモデルよりも大幅に優れており, GPT-4oの文脈内学習に基づく世代に匹敵する性能を示す。
コード、データ、モデルを公開しています。
関連論文リスト
- NAG: A Unified Native Architecture for Encoder-free Text-Graph Modeling in Language Models [33.49410203951687]
このアプローチはテキストグラフに最適である,と我々は主張する。
NAG(Native Architecture for Graphs)は、言語モデル内でグラフ処理を内部化する統合フレームワークである。
NAGは外部エンコーダのオーバーヘッドなしに堅牢なグラフ理解を実現する。
論文 参考訳(メタデータ) (2026-01-30T07:22:11Z) - UniRec-0.1B: Unified Text and Formula Recognition with 0.1B Parameters [55.34921520578968]
視覚言語モデル(VLM)は、テキストと公式の統一的な認識を実現している。
パラメータが0.1Bしか持たない統一認識モデルUniRec-0.1Bを提案する。
文字、単語、行、段落、文書など、複数のレベルでテキストや公式の認識を行うことができる。
論文 参考訳(メタデータ) (2025-12-24T10:35:21Z) - Improving Large Vision-Language Models' Understanding for Field Data [62.917026891829025]
本研究では、大規模ビジョン言語モデルのフィールドデータ理解を改善するためのフレームワークであるFieldLVLMを紹介する。
FieldLVLMは、フィールド対応言語生成戦略とデータ圧縮マルチモーダルモデルチューニングの2つの主要コンポーネントから構成される。
新たに提案されたベンチマークデータセットの実験結果から、フィールドLVLMは、科学的なフィールドデータを含むタスクにおいて、既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2025-07-24T11:28:53Z) - Emergent Visual-Semantic Hierarchies in Image-Text Representations [13.300199242824934]
既存の基盤モデルの知識について検討し、視覚・意味的階層の創発的な理解を示すことを明らかにする。
本稿では,階層的理解の探索と最適化を目的としたRadial Embedding (RE)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-11T14:09:42Z) - mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document Understanding [100.17063271791528]
MLLMの性能向上を目的とした統一構造学習を提案する。
我々のモデルDocOwl 1.5は、10のビジュアル文書理解ベンチマーク上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-03-19T16:48:40Z) - Exploring In-Context Learning Capabilities of Foundation Models for
Generating Knowledge Graphs from Text [3.114960935006655]
本論文は,知識グラフの自動構築と完成の技術をテキストから改善することを目的としている。
この文脈では、新しいパラダイムの1つは、言語モデルがプロンプトとともにそのまま使われる、コンテキスト内学習である。
論文 参考訳(メタデータ) (2023-05-15T17:10:19Z) - Schema-aware Reference as Prompt Improves Data-Efficient Knowledge Graph
Construction [57.854498238624366]
本稿では,データ効率のよい知識グラフ構築のためのRAP(Schema-Aware Reference As Prompt)の検索手法を提案する。
RAPは、人間の注釈付きおよび弱教師付きデータから受け継いだスキーマと知識を、各サンプルのプロンプトとして動的に活用することができる。
論文 参考訳(メタデータ) (2022-10-19T16:40:28Z) - KELM: Knowledge Enhanced Pre-Trained Language Representations with
Message Passing on Hierarchical Relational Graphs [26.557447199727758]
本稿では,微調整プロセスに基づく知識認識型言語モデルフレームワークを提案する。
我々のモデルは、KGからの世界知識をBERTのような既存の言語モデルに効率的に組み込むことができる。
論文 参考訳(メタデータ) (2021-09-09T12:39:17Z) - GraphFormers: GNN-nested Transformers for Representation Learning on
Textual Graph [53.70520466556453]
階層的にGNNコンポーネントを言語モデルのトランスフォーマーブロックと一緒にネストするGraphFormerを提案する。
提案したアーキテクチャでは、テキストエンコーディングとグラフ集約を反復的なワークフローに融合する。
さらに、プログレッシブ・ラーニング・ストラテジーを導入し、そのモデルが操作されたデータと元のデータに基づいて連続的に訓練され、グラフ上の情報を統合する能力を強化する。
論文 参考訳(メタデータ) (2021-05-06T12:20:41Z) - Exploiting Structured Knowledge in Text via Graph-Guided Representation
Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。
エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。
既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文 参考訳(メタデータ) (2020-04-29T14:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。