論文の概要: WebRPG: Automatic Web Rendering Parameters Generation for Visual Presentation
- arxiv url: http://arxiv.org/abs/2407.15502v1
- Date: Mon, 22 Jul 2024 09:35:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 15:31:05.245235
- Title: WebRPG: Automatic Web Rendering Parameters Generation for Visual Presentation
- Title(参考訳): WebRPG:ビジュアルプレゼンテーションのためのWebレンダリングパラメータの自動生成
- Authors: Zirui Shao, Feiyu Gao, Hangdi Xing, Zepeng Zhu, Zhi Yu, Jiajun Bu, Qi Zheng, Cong Yao,
- Abstract要約: ウェブレンダリングパラメータ生成(WebRPG, Web Rendering Parameters Generation)はHTMLコードに基づくWebページの視覚的表示の自動生成を目的とした新しいタスクである。
VAEを利用して多数の要素やレンダリングパラメータを管理するベースラインモデルと、HTMLから本質的なセマンティックおよび階層的な情報をキャプチャするためのカスタムHTML埋め込みを提示する。
- 参考スコア(独自算出の注目度): 24.99791278208309
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the era of content creation revolution propelled by advancements in generative models, the field of web design remains unexplored despite its critical role in modern digital communication. The web design process is complex and often time-consuming, especially for those with limited expertise. In this paper, we introduce Web Rendering Parameters Generation (WebRPG), a new task that aims at automating the generation for visual presentation of web pages based on their HTML code. WebRPG would contribute to a faster web development workflow. Since there is no existing benchmark available, we develop a new dataset for WebRPG through an automated pipeline. Moreover, we present baseline models, utilizing VAE to manage numerous elements and rendering parameters, along with custom HTML embedding for capturing essential semantic and hierarchical information from HTML. Extensive experiments, including customized quantitative evaluations for this specific task, are conducted to evaluate the quality of the generated results.
- Abstract(参考訳): 生成モデルの進歩によって促進されたコンテンツ創造革命の時代において、ウェブデザインの分野は現代のデジタルコミュニケーションにおいて重要な役割を担っているにもかかわらず、まだ解明されていない。
ウェブデザインのプロセスは複雑で、特に専門知識に乏しい人には時間がかかります。
本稿では,HTML コードに基づく Web ページの視覚的表示の自動生成を目的とした WebRPG (Web Rendering Parameters Generation) を提案する。
WebRPGはより高速なWeb開発ワークフローに寄与する。
既存のベンチマークは利用できないので、自動パイプラインを通じてWebRPG用の新しいデータセットを開発します。
さらに,多数の要素やレンダリングパラメータを管理するためにVAEを利用するベースラインモデルと,HTMLから本質的なセマンティックおよび階層的な情報を取得するためのカスタムHTML埋め込みを提案する。
このタスクをカスタマイズした定量的評価を含む広範囲な実験を行い、結果の質を評価する。
関連論文リスト
- Web2Code: A Large-scale Webpage-to-Code Dataset and Evaluation Framework for Multimodal LLMs [112.89665642941814]
MLLM(Multimodal large language model)は、画像、ビデオ、オーディオなどのモダリティにおいて顕著な成功を収めている。
現在のMLLMは、Webページのスクリーンショットを理解し、対応するHTMLコードを生成するのに驚くほど貧弱です。
命令チューニングのための大規模Webページ・ツー・コードデータセットを新たに構築したベンチマークであるWeb2Codeを提案する。
論文 参考訳(メタデータ) (2024-06-28T17:59:46Z) - AutoCrawler: A Progressive Understanding Web Agent for Web Crawler Generation [55.86438100985539]
垂直情報Webページのためのクローラ生成タスクを提案する。
本稿では,段階的理解のためにHTMLの階層構造を利用する2段階フレームワークであるAutoCrawlerを提案する。
論文 参考訳(メタデータ) (2024-04-19T09:59:44Z) - AutoWebGLM: Bootstrap And Reinforce A Large Language Model-based Web Navigating Agent [33.55199326570078]
AutoWebGLMはChatGLM3-6B上に構築された自動Webナビゲーションエージェントである。
人間のブラウジングパターンにインスパイアされた我々は、Webページを表現するためのHTML単純化アルゴリズムを設計する。
テストのために、現実世界のWebブラウジングタスクのためのバイリンガルベンチマーク -- AutoWebBench -- を確立しました。
論文 参考訳(メタデータ) (2024-04-04T17:58:40Z) - Hierarchical Multimodal Pre-training for Visually Rich Webpage
Understanding [22.00873805952277]
WebLMは、WebページにおけるHTMLの構造的モダリティとテキストのみをモデリングする制限に対処するために設計されたマルチモーダル事前学習ネットワークである。
本稿では,テキスト,構造,画像モダリティ間の相互作用を効果的にモデル化するための事前学習タスクを提案する。
実験の結果、事前学習されたWebLMは、いくつかのWebページ理解タスクにおいて、従来の最先端の事前学習モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-02-28T11:50:36Z) - VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。
このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文 参考訳(メタデータ) (2024-01-24T18:35:21Z) - LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer [81.5482196644596]
グラフィックレイアウトデザインは視覚コミュニケーションにおいて重要な役割を担っている。
しかし、手作りのレイアウトデザインは、スキルを要求し、時間がかかり、バッチプロダクションではスケールできない。
ジェネレーティブモデルは、設計自動化をスケーラブルにするために出現するが、デザイナの欲求に沿うデザインを作成することは、未だに容易ではない。
論文 参考訳(メタデータ) (2022-12-19T21:57:35Z) - WebFormer: The Web-page Transformer for Structure Information Extraction [44.46531405460861]
構造情報抽出は、構造化されたテキストフィールドをWebページから抽出するタスクを指す。
シーケンスモデリングを用いた最近の自然言語モデルは、Web情報抽出における最先端の性能を実証している。
本稿では、Webドキュメントから構造情報を抽出するWebページトランスフォーマーモデルであるWebFormerを紹介する。
論文 参考訳(メタデータ) (2022-02-01T04:44:02Z) - The Klarna Product Page Dataset: Web Element Nomination with Graph
Neural Networks and Large Language Models [51.39011092347136]
私たちはKlarna Product Pageデータセットを紹介します。これは、豊かさと多様性で既存のデータセットを超えるWebページの集合です。
我々は、Web要素指名タスクにおいて、GNN(Graph Neural Networks)の範囲を実証的にベンチマークする。
第2に、各ページから少数の関連要素を識別する訓練改善手順を導入する。
第3に,推薦精度をさらに高める新たなトレーニング手法であるChallenge Nomination Training procedureを導入する。
論文 参考訳(メタデータ) (2021-11-03T12:13:52Z) - CoVA: Context-aware Visual Attention for Webpage Information Extraction [65.11609398029783]
WIE をコンテキスト対応 Web ページオブジェクト検出タスクとして再構築することを提案する。
我々は、外観特徴とDOMツリーからの構文構造を組み合わせた、コンテキスト認識型視覚意図ベース(CoVA)検出パイプラインを開発した。
提案手法は,従来の最先端手法を改良した新しい挑戦的ベースラインであることを示す。
論文 参考訳(メタデータ) (2021-10-24T00:21:46Z) - Boilerplate Removal using a Neural Sequence Labeling Model [4.056234173482691]
本稿では,手作り機能に頼らず,Webページに現れるHTMLタグや単語のみを入力として利用するニューラルシーケンスラベリングモデルを提案する。
これにより、モデルを使用して、任意のWebページのコンテンツをブラウザ内で直接ハイライトするブラウザ拡張を提示できる。
論文 参考訳(メタデータ) (2020-04-22T08:06:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。