論文の概要: WebGen-R1: Incentivizing Large Language Models to Generate Functional and Aesthetic Websites with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2604.20398v1
- Date: Wed, 22 Apr 2026 10:04:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.0778
- Title: WebGen-R1: Incentivizing Large Language Models to Generate Functional and Aesthetic Websites with Reinforcement Learning
- Title(参考訳): WebGen-R1:強化学習による大規模言語モデルの導入による機能的および美的Webサイトの生成
- Authors: Juyong Jiang, Chenglin Cai, Chansung Park, Jiasi Shen, Sunghun Kim, Jianguo Li, Yue Wang,
- Abstract要約: WebGen-R1はプロジェクトレベルのWebサイト生成に適したエンドツーエンドのRLフレームワークである。
大規模なオープンエンド行動空間を制約する足場駆動型構造化生成パラダイムを導入する。
次に,構造的保証と機能的フィードバックをシームレスに結合する,ケースケード型マルチモーダル報酬を設計する。
- 参考スコア(独自算出の注目度): 19.832733425312476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models (LLMs) excel at function-level code generation, project-level tasks such as generating functional and visually aesthetic multi-page websites remain highly challenging. Existing works are often limited to single-page static websites, while agentic frameworks typically rely on multi-turn execution with proprietary models, leading to substantial token costs, high latency, and brittle integration. Training a small LLM end-to-end with reinforcement learning (RL) is a promising alternative, yet it faces a critical bottleneck in designing reliable and computationally feasible rewards for website generation. Unlike single-file coding tasks that can be verified by unit tests, website generation requires evaluating inherently subjective aesthetics, cross-page interactions, and functional correctness. To this end, we propose WebGen-R1, an end-to-end RL framework tailored for project-level website generation. We first introduce a scaffold-driven structured generation paradigm that constrains the large open-ended action space and preserves architectural integrity. We then design a novel cascaded multimodal reward that seamlessly couples structural guarantees with execution-grounded functional feedback and vision-based aesthetic supervision. Extensive experiments demonstrate that our WebGen-R1 substantially transforms a 7B base model from generating nearly nonfunctional websites into producing deployable, aesthetically aligned multi-page websites. Remarkably, our WebGen-R1 not only consistently outperforms heavily scaled open-source models (up to 72B), but also rivals the state-of-the-art DeepSeek-R1 (671B) in functional success, while substantially exceeding it in valid rendering and aesthetic alignment. These results position WebGen-R1 as a viable path for scaling small open models from function-level code generation to project-level web application generation.
- Abstract(参考訳): 大きな言語モデル(LLM)は関数レベルのコード生成に優れていますが、機能的で視覚的に美的なWebサイトを生成するようなプロジェクトレベルのタスクは非常に難しいままです。
既存の作業はシングルページの静的Webサイトに限定されることが多いが、エージェントフレームワークは通常、プロプライエタリなモデルによるマルチターン実行に依存しており、相当なトークンコスト、高いレイテンシ、不安定な統合につながっている。
強化学習(RL)による小さなLLMエンドツーエンドのトレーニングは、有望な代替手段だが、Webサイト生成のための信頼性と計算可能な報酬を設計する上で、重要なボトルネックに直面している。
単体テストで検証できる単一ファイルのコーディングタスクとは異なり、ウェブサイト生成には固有の主観的美学、ページ間の相互作用、機能的正当性の評価が必要である。
この目的のために,プロジェクトレベルのWebサイト生成に適したエンドツーエンドのRLフレームワークであるWebGen-R1を提案する。
まず、大規模なオープンエンドアクション空間を制約し、アーキテクチャの整合性を維持する、足場駆動型構造化生成パラダイムを導入する。
次に、構造的保証をシームレスに結合し、実行時の機能的フィードバックと視覚に基づく審美的監督とをシームレスに結合する、ケースケード型マルチモーダル報酬を設計する。
大規模な実験により、我々のWebGen-R1は7Bベースモデルをほぼ非機能なWebサイトから、デプロイ可能で美学的に整合したマルチページWebサイトへと実質的に変換します。
注目すべきなのは、当社のWebGen-R1は、大規模なオープンソースモデル(最大72B)を一貫して上回るだけでなく、最先端のDeepSeek-R1(671B)に匹敵する機能を備えています。
これらの結果は、WebGen-R1を、関数レベルのコード生成からプロジェクトレベルのWebアプリケーション生成まで、小さなオープンモデルをスケールするための実行可能なパスとして位置づけている。
関連論文リスト
- FronTalk: Benchmarking Front-End Development as Conversational Code Generation with Multi-Modal Feedback [92.67587639164908]
マルチモーダルフィードバックを備えたフロントエンドコード生成のベンチマークであるFronTalkを紹介する。
我々は、フロントエンド開発タスクに集中し、100のマルチターン対話のコレクションであるFronTalkをキュレートする。
20モデルの評価は、文献で体系的に調査されていない2つの重要な課題を明らかにしている。
論文 参考訳(メタデータ) (2025-12-05T23:28:09Z) - WebRenderBench: Enhancing Web Interface Generation through Layout-Style Consistency and Reinforcement Learning [24.178675410636135]
実世界のポータルサイトから収集した45.1kのWebページの大規模なベンチマークを示す。
また、最終レンダリングページからレイアウトとスタイルの整合性を測定する新しい評価指標を提案する。
論文 参考訳(メタデータ) (2025-10-05T08:47:39Z) - IWR-Bench: Can LVLMs reconstruct interactive webpage from a user interaction video? [56.33950760097989]
IWR-Benchは、ビデオからインタラクティブなWebページ再構築におけるLVLM(Large Vision-Language Models)の機能を評価するための新しいベンチマークである。
IWR-Benchは100の現実世界のウェブサイトから1,001のアクションで1,3の精巧にキュレートされたタスクで構成されている。
このベンチマークは、ビデオとアセットからインタラクションロジックを推論する包括的なマルチモーダル推論と、このロジックを関数コードに変換するための高度なコード生成という、2つの基本的な課題に関するモデルを評価する。
論文 参考訳(メタデータ) (2025-09-29T12:38:06Z) - WebCode2M: A Real-World Dataset for Code Generation from Webpage Designs [49.91550773480978]
本稿では256万のインスタンスからなる新しいデータセットであるWebCode2Mを紹介する。
WebCode2Mの有効性を検証するため,WebCoderという名称のVision Transformer(ViT)に基づくベースラインモデルを導入し,公正比較のためのベンチマークを確立する。
ベンチマークの結果、我々のデータセットは、Webページの設計からコードを生成するMLLMの能力を大幅に改善することを示した。
論文 参考訳(メタデータ) (2024-04-09T15:05:48Z) - GiT: Towards Generalist Vision Transformer through Universal Language Interface [94.33443158125186]
本稿では,バニラ ViT のみを用いて,様々な視覚タスクに同時に適用可能な,シンプルかつ効果的な GiT フレームワークを提案する。
GiTはマルチタスクのビジュアルモデルで、タスク固有の微調整なしで5つの代表的なベンチマークで共同でトレーニングされている。
論文 参考訳(メタデータ) (2024-03-14T13:47:41Z) - Jack of All Trades, Master of Some, a Multi-Purpose Transformer Agent [2.3967405016776384]
Jack of All Trades (JAT) は、シーケンシャルな意思決定タスクに最適化されたユニークな設計のトランスフォーマーベースのモデルである。
JATは、その種の最初のモデルはhttps://huggingface.co/jat-project/jatで完全にオープンソース化されている。
論文 参考訳(メタデータ) (2024-02-15T10:01:55Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。