論文の概要: Multimodal graph representation learning for website generation based on visual sketch
- arxiv url: http://arxiv.org/abs/2504.18729v1
- Date: Fri, 25 Apr 2025 22:48:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.964072
- Title: Multimodal graph representation learning for website generation based on visual sketch
- Title(参考訳): ビジュアルスケッチに基づくWebサイト生成のためのマルチモーダルグラフ表現学習
- Authors: Tung D. Vu, Chung Hoang, Truong-Son Hy,
- Abstract要約: Design2Codeの問題は、デジタルデザインを機能的なソースコードに変換することである。
伝統的なアプローチは、Webページの設計に固有の複雑な視覚的詳細と構造的関係を正確に解釈するのにしばしば苦労する。
本稿では,これらの課題に対処するために,マルチモーダルグラフ表現学習を活用する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 1.515687944002438
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Design2Code problem, which involves converting digital designs into functional source code, is a significant challenge in software development due to its complexity and time-consuming nature. Traditional approaches often struggle with accurately interpreting the intricate visual details and structural relationships inherent in webpage designs, leading to limitations in automation and efficiency. In this paper, we propose a novel method that leverages multimodal graph representation learning to address these challenges. By integrating both visual and structural information from design sketches, our approach enhances the accuracy and efficiency of code generation, particularly in producing semantically correct and structurally sound HTML code. We present a comprehensive evaluation of our method, demonstrating significant improvements in both accuracy and efficiency compared to existing techniques. Extensive evaluation demonstrates significant improvements of multimodal graph learning over existing techniques, highlighting the potential of our method to revolutionize design-to-code automation. Code available at https://github.com/HySonLab/Design2Code
- Abstract(参考訳): デジタルデザインを機能的ソースコードに変換するというDesign2Codeの問題は、その複雑さと時間を要する性質から、ソフトウェア開発において重要な課題である。
伝統的なアプローチは、Webページの設計に固有の複雑な視覚的詳細と構造的関係を正確に解釈することに苦慮し、自動化と効率の限界に繋がる。
本稿では,これらの課題に対処するために,マルチモーダルグラフ表現学習を利用する新しい手法を提案する。
デザインスケッチから視覚情報と構造情報を統合することにより、コード生成の精度と効率を高めることができ、特に意味論的に正確で構造的に健全なHTMLコードを生成する。
提案手法の総合評価を行い,既存の手法と比較して精度と効率の両面で有意な改善が示された。
大規模評価により,既存の手法よりも多モードグラフ学習が大幅に向上し,設計からコードへの自動化に革命をもたらす可能性が示された。
https://github.com/HySonLab/Design2Codeで利用可能なコード
関連論文リスト
- Enhancing Chart-to-Code Generation in Multimodal Large Language Models via Iterative Dual Preference Learning [16.22363384653305]
Chart2Codeは、チャート・ツー・コード生成のための新しい反復的な二重選好学習フレームワークである。
Chart2Codeは、ディストリビューション外のチャート・ツー・コード生成品質を継続的に改善する。
我々のフレームワークは、チャート理解における今後の進歩の道を開く。
論文 参考訳(メタデータ) (2025-04-03T07:51:20Z) - Bridging Visualization and Optimization: Multimodal Large Language Models on Graph-Structured Combinatorial Optimization [56.17811386955609]
グラフ構造上の課題は、その非線形で複雑な性質のために本質的に困難である。
本研究では,高次構造的特徴を正確に保存するために,グラフを画像に変換する手法を提案する。
マルチモーダルな大規模言語モデルと単純な検索手法を組み合わせた革新的なパラダイムを生かし、新しい効果的なフレームワークを開発することを目指す。
論文 参考訳(メタデータ) (2025-01-21T08:28:10Z) - Design-o-meter: Towards Evaluating and Refining Graphic Designs [11.416650723712968]
本稿では,グラフィックデザインの良さを定量化するデータ駆動手法であるDesign-o-meterを紹介する。
私たちの知る限りでは、Design-o-meterは統一されたフレームワークで設計をスコア付けし洗練する最初のアプローチです。
論文 参考訳(メタデータ) (2024-11-22T14:17:46Z) - GLDesigner: Leveraging Multi-Modal LLMs as Designer for Enhanced Aesthetic Text Glyph Layouts [53.568057283934714]
コンテンツ対応のテキストロゴレイアウトを生成するVLMベースのフレームワークを提案する。
本稿では,複数のグリフ画像の同時処理における計算量を削減するための2つのモデル手法を提案する。
アウトモデルのインストラクションチューニングを支援するために,既存の公開データセットよりも5倍大きい2つの拡張テキストロゴデータセットを構築した。
論文 参考訳(メタデータ) (2024-11-18T10:04:10Z) - PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM [58.67882997399021]
本研究では,グラフィックレイアウトの自動生成のための統合フレームワークを提案する。
データ駆動方式では、レイアウトを生成するために構造化テキスト(JSONフォーマット)とビジュアルインストラクションチューニングを用いる。
我々は,ユーザのデザイン意図に基づいて編集可能なポスターを生成する自動テキスト投稿システムを開発した。
論文 参考訳(メタデータ) (2024-06-05T03:05:52Z) - CogCoM: A Visual Language Model with Chain-of-Manipulations Reasoning [61.21923643289266]
カオス・オブ・マニピュレーション(Chain of Manipulations)は、視覚言語モデル(Vision-Language Models)が、エビデンスを段階的に解決するメカニズムである。
トレーニング後、モデルは外部ツールを介さずに、本質的な操作(グラウンド、ズームインなど)を積極的に行うことで、様々な視覚的問題を解決することができる。
トレーニングされたモデルである textbfCogCoM は、4つのカテゴリの9つのベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-02-06T18:43:48Z) - Compositional Generative Inverse Design [69.22782875567547]
入力変数を設計して目的関数を最適化する逆設計は重要な問題である。
拡散モデルにより得られた学習エネルギー関数を最適化することにより、そのような逆例を避けることができることを示す。
N-body 相互作用タスクと2次元多面体設計タスクにおいて,実験時に学習した拡散モデルを構成することにより,初期状態と境界形状を設計できることを示す。
論文 参考訳(メタデータ) (2024-01-24T01:33:39Z) - A Comprehensive End-to-End Computer Vision Framework for Restoration and
Recognition of Low-Quality Engineering Drawings [19.375278164300987]
本稿では,低品質なエンジニアリング図面の復元と認識に焦点を当てる。
図面の品質を向上し,図面上の図形記号を識別するために,エンドツーエンドのフレームワークを提案する。
実世界の電気図の実験では、提案されたフレームワークは98.98%の精度と99.33%のリコールを達成した。
論文 参考訳(メタデータ) (2023-12-21T07:22:25Z) - HAT-GAE: Self-Supervised Graph Auto-encoders with Hierarchical Adaptive
Masking and Trainable Corruption [0.76146285961466]
グラフ表現学習のための新しいオートエンコーダモデルを提案する。
このモデルには階層型適応マスキング機構が組み込まれ,トレーニングの難易度を漸進的に向上させる。
提案手法が最先端のグラフ表現学習モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-28T02:43:54Z) - Software Vulnerability Detection via Deep Learning over Disaggregated
Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。
コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文 参考訳(メタデータ) (2021-09-07T21:24:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。