論文の概要: Advancing vision-language models in front-end development via data synthesis
- arxiv url: http://arxiv.org/abs/2503.01619v1
- Date: Mon, 03 Mar 2025 14:54:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:27:15.816454
- Title: Advancing vision-language models in front-end development via data synthesis
- Title(参考訳): データ合成によるフロントエンド開発における視覚言語モデルの改善
- Authors: Tong Ge, Yashu Liu, Jieping Ye, Tianyi Li, Chao Wang,
- Abstract要約: 本稿では,高品質な画像テキストデータを合成し,フロントエンド開発における多様な特徴を捉えた反射型エージェントワークフローを提案する。
このワークフローは、実際のプロジェクトから自己完結型フットノートA textbfself-完結型コードスニペットを抽出し、対応するビジュアルアウトプットをレンダリングし、設計要素を機能コードにリンクする詳細な記述を生成する。
私たちは、合成データセットに基づいてトレーニングされた大規模なビジョン言語モデルであるFlameを構築し、$textpass@k$メトリックを使用してReactコードを生成する効果を実証しています。
- 参考スコア(独自算出の注目度): 30.287628180320137
- License:
- Abstract: Modern front-end (FE) development, especially when leveraging the unique features of frameworks like React and Vue, presents distinctive challenges. These include managing modular architectures, ensuring synchronization between data and visual outputs for declarative rendering, and adapting reusable components to various scenarios. Such complexities make it particularly difficult for state-of-the-art large vision-language models (VLMs) to generate accurate and functional code directly from design images. To address these challenges, we propose a reflective agentic workflow that synthesizes high-quality image-text data to capture the diverse characteristics of FE development. This workflow automates the extraction of self-contained\footnote{A \textbf{self-contained} code snippet is one that encapsulates all necessary logic, styling, and dependencies, ensuring it functions independently without requiring external imports or context.} code snippets from real-world projects, renders the corresponding visual outputs, and generates detailed descriptions that link design elements to functional code. To further expand the scope and utility of the synthesis, we introduce three data synthesis strategies: Evolution-based synthesis, which enables scalable and diverse dataset expansion; Waterfall-Model-based synthesis, which generates logically coherent code derived from system requirements; and Additive Development synthesis, which iteratively increases the complexity of human-authored components. We build a large vision-language model, Flame, trained on the synthesized datasets and demonstrate its effectiveness in generating React code via the $\text{pass}@k$ metric. Our results suggest that a code VLM trained to interpret images before code generation may achieve better performance.
- Abstract(参考訳): 現代的なフロントエンド(FE)開発、特にReactやVueといったフレームワークのユニークな機能を活用する場合には、特有の課題が提示される。
モジュラーアーキテクチャの管理、宣言型レンダリングのためのデータとビジュアルアウトプットの同期の確保、再利用可能なコンポーネントのさまざまなシナリオへの適応などだ。
このような複雑さは、最先端の大規模視覚言語モデル(VLM)が設計画像から直接正確かつ機能的なコードを生成するのを特に困難にしている。
これらの課題に対処するために,高品質な画像テキストデータを合成し,FE開発の多様な特徴を捉える反射型エージェントワークフローを提案する。
このワークフローは、自己完結した\footnote{A \textbf{self-contained}コードスニペットの抽出を自動化する。
実際のプロジェクトのコードスニペットを描画し、対応するビジュアル出力をレンダリングし、デザイン要素を機能コードにリンクする詳細な記述を生成する。
提案手法は,スケーラブルで多様なデータセット拡張を可能にする進化型合成,システム要件から論理的に一貫性のあるコードを生成するウォーターフォールモデルベース合成,そして,人間の要求するコンポーネントの複雑さを反復的に増大させる付加的生成合成という3つのデータ合成戦略を導入する。
当社は、合成データセットに基づいてトレーニングされた大規模なビジョン言語モデルであるFlameを構築し、$\text{pass}@k$メトリックを使用してReactコードを生成する効果を実証しています。
以上の結果から,コード生成に先立って画像の解釈を訓練したVLMが,より優れた性能を実現する可能性が示唆された。
関連論文リスト
- Scaling Text-Rich Image Understanding via Code-Guided Synthetic Multimodal Data Generation [79.71072337496351]
CoSynは、合成テキストリッチマルチモーダルデータを作成するフレームワークである。
高品質な命令チューニングデータを生成することができる。
また、合成ポインティングデータを生成し、視覚言語モデルで入力画像内の情報をグラウンドできる。
論文 参考訳(メタデータ) (2025-02-20T18:55:30Z) - ContextFormer: Redefining Efficiency in Semantic Segmentation [46.06496660333768]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。
ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。
我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文 参考訳(メタデータ) (2025-01-31T16:11:04Z) - EpiCoder: Encompassing Diversity and Complexity in Code Generation [49.170195362149386]
抽象構文木(AST)にヒントを得た新しい特徴木ベース合成フレームワークを提案する。
コードの構文構造をキャプチャするASTとは異なり、私たちのフレームワークはコード要素間のセマンティックな関係をモデル化します。
広く使われているベースモデルを微調整してEpiCoderシリーズを作成し、関数レベルとファイルレベルの両方で最先端のパフォーマンスを実現しました。
論文 参考訳(メタデータ) (2025-01-08T18:58:15Z) - ARTEMIS-DA: An Advanced Reasoning and Transformation Engine for Multi-Step Insight Synthesis in Data Analytics [0.0]
ARTEMIS-DAは、複雑で多段階のデータ分析タスクを解決するために、大規模言語モデルを拡張するために設計されたフレームワークである。
ARTEMIS-DAはPlanner、Coder、Grapherという3つのコアコンポーネントを統合している。
このフレームワークはWikiTableQuestionsやTabFactといったベンチマーク上でのSOTA(State-of-the-art)のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-18T18:44:08Z) - CodeSAM: Source Code Representation Learning by Infusing Self-Attention with Multi-Code-View Graphs [8.850533100643547]
我々は,複数のコードビューをトランスフォーマーベースモデルに注入する新しいフレームワークであるCodeSAMを提案する。
CodeSAMを使って、セマンティックコード検索、コードクローン検出、プログラム分類の下流SEタスクでCodeBERTのような小さな言語モデル(SLM)を微調整します。
論文 参考訳(メタデータ) (2024-11-21T22:24:47Z) - MovieCharacter: A Tuning-Free Framework for Controllable Character Video Synthesis [18.34452814819313]
MovieCharacterは、文字ビデオ合成のためのチューニング不要のフレームワークである。
我々のフレームワークは、合成タスクを別々に管理可能なモジュールに分解します。
既存のオープンソースモデルを活用し、確立されたテクニックを統合することで、MovieCharacterは印象的な合成結果を達成する。
論文 参考訳(メタデータ) (2024-10-28T12:46:05Z) - Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。
本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - ORES: Open-vocabulary Responsible Visual Synthesis [104.7572323359984]
我々は、新しいタスクであるオープン語彙対応視覚合成(ORES)を定式化し、そこで合成モデルは、禁止された視覚概念を避けることができる。
この問題に対処するため,我々はTIN(Two-stage Intervention)フレームワークを提案する。
1)大規模言語モデル(LLM)による学習可能な命令による書き直し,2)拡散モデルへの迅速な介入による合成を行うことで,概念を避けながら可能な限りユーザのクエリに従うイメージを効果的に合成することができる。
論文 参考訳(メタデータ) (2023-08-26T06:47:34Z) - Composer: Creative and Controllable Image Synthesis with Composable
Conditions [57.78533372393828]
ビッグデータで学んだ最近の大規模な生成モデルは、驚くべき画像を合成できるが、制御性は限られている。
この研究は、合成品質とモデルの創造性を維持しつつ、空間配置やパレットのような出力画像の柔軟な制御を可能にする新しい世代パラダイムを提供する。
論文 参考訳(メタデータ) (2023-02-20T05:48:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。