論文の概要: FronTalk: Benchmarking Front-End Development as Conversational Code Generation with Multi-Modal Feedback
- arxiv url: http://arxiv.org/abs/2601.04203v1
- Date: Fri, 05 Dec 2025 23:28:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-11 18:48:17.602577
- Title: FronTalk: Benchmarking Front-End Development as Conversational Code Generation with Multi-Modal Feedback
- Title(参考訳): FronTalk: マルチモーダルフィードバックによる会話コード生成のためのフロントエンド開発ベンチマーク
- Authors: Xueqing Wu, Zihan Xue, Da Yin, Shuyan Zhou, Kai-Wei Chang, Nanyun Peng, Yeming Wen,
- Abstract要約: マルチモーダルフィードバックを備えたフロントエンドコード生成のベンチマークであるFronTalkを紹介する。
我々は、フロントエンド開発タスクに集中し、100のマルチターン対話のコレクションであるFronTalkをキュレートする。
20モデルの評価は、文献で体系的に調査されていない2つの重要な課題を明らかにしている。
- 参考スコア(独自算出の注目度): 92.67587639164908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present FronTalk, a benchmark for front-end code generation that pioneers the study of a unique interaction dynamic: conversational code generation with multi-modal feedback. In front-end development, visual artifacts such as sketches, mockups and annotated creenshots are essential for conveying design intent, yet their role in multi-turn code generation remains largely unexplored. To address this gap, we focus on the front-end development task and curate FronTalk, a collection of 100 multi-turn dialogues derived from real-world websites across diverse domains such as news, finance, and art. Each turn features both a textual instruction and an equivalent visual instruction, each representing the same user intent. To comprehensively evaluate model performance, we propose a novel agent-based evaluation framework leveraging a web agent to simulate users and explore the website, and thus measuring both functional correctness and user experience. Evaluation of 20 models reveals two key challenges that are under-explored systematically in the literature: (1) a significant forgetting issue where models overwrite previously implemented features, resulting in task failures, and (2) a persistent challenge in interpreting visual feedback, especially for open-source vision-language models (VLMs). We propose a strong baseline to tackle the forgetting issue with AceCoder, a method that critiques the implementation of every past instruction using an autonomous web agent. This approach significantly reduces forgetting to nearly zero and improves the performance by up to 9.3% (56.0% to 65.3%). Overall, we aim to provide a solid foundation for future research in front-end development and the general interaction dynamics of multi-turn, multi-modal code generation. Code and data are released at https://github.com/shirley-wu/frontalk
- Abstract(参考訳): FronTalkは,マルチモーダルフィードバックを用いた対話型コード生成という,ユニークなインタラクションダイナミクスの研究の先駆けとなるフロントエンドコード生成のベンチマークである。
フロントエンド開発では、スケッチ、モックアップ、注釈付きクレンショットといった視覚的なアーティファクトは、設計意図を伝える上で不可欠だが、マルチターンコード生成における彼らの役割は、まだ明らかにされていない。
このギャップに対処するため、私たちはフロントエンド開発タスクに注力し、ニュース、ファイナンス、アートなどさまざまな分野にまたがる現実世界のWebサイトから派生した100のマルチターン対話のコレクションであるFronTalkをキュレートする。
各ターンはテキスト命令と同等の視覚命令の両方を特徴とし、それぞれが同じユーザ意図を表す。
モデルの性能を総合的に評価するために,ユーザをシミュレートし,Webサイトを探索するWebエージェントを活用した新しいエージェントベース評価フレームワークを提案する。
20モデルの評価は,(1)以前に実装された特徴を上書きし,タスクの失敗をもたらす重要な忘れ問題,(2)視覚的フィードバック,特にオープンソースの視覚言語モデル(VLM)を解釈する上での永続的な課題の2つを,文献の中で体系的に過小評価されている。
本稿では,AceCoderにおける忘れる問題に対処するための強力なベースラインを提案する。
このアプローチは、忘れをほとんどゼロに減らし、パフォーマンスを最大9.3%向上させる(56.0%から65.3%)。
全体として、フロントエンド開発における将来の研究の基盤と、マルチターン・マルチモーダルコード生成の一般的な相互作用のダイナミクスを提供することを目標としている。
コードとデータはhttps://github.com/shirley-wu/frontalkで公開されている。
関連論文リスト
- VCoT-Grasp: Grasp Foundation Models with Visual Chain-of-Thought Reasoning for Language-driven Grasp Generation [67.98487725287835]
VCoT-Graspは、視覚的連鎖推論を取り入れたエンドツーエンドの把握基盤モデルであり、把握生成のための視覚的理解を強化する。
トレーニングのために、我々は167Kの合成画像と1.36Mのグリップを含む大規模なデータセットVCoT-GraspSetを洗練、導入した。
本手法は, 達成率を大幅に向上させ, 未知の物体, 背景, 邪魔者に効果的に一般化する。
論文 参考訳(メタデータ) (2025-10-07T11:50:26Z) - IWR-Bench: Can LVLMs reconstruct interactive webpage from a user interaction video? [56.33950760097989]
IWR-Benchは、ビデオからインタラクティブなWebページ再構築におけるLVLM(Large Vision-Language Models)の機能を評価するための新しいベンチマークである。
IWR-Benchは100の現実世界のウェブサイトから1,001のアクションで1,3の精巧にキュレートされたタスクで構成されている。
このベンチマークは、ビデオとアセットからインタラクションロジックを推論する包括的なマルチモーダル推論と、このロジックを関数コードに変換するための高度なコード生成という、2つの基本的な課題に関するモデルを評価する。
論文 参考訳(メタデータ) (2025-09-29T12:38:06Z) - ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation [51.297873393639456]
ArtifactsBenchは自動ビジュアルコード生成評価のためのフレームワークである。
我々のフレームワークは、生成した各アーティファクトをレンダリングし、時間的スクリーンショットを通してその動的な振る舞いをキャプチャする。
我々は1,825の多様なタスクの新しいベンチマークを構築し、30以上の主要な大規模言語モデルを評価する。
論文 参考訳(メタデータ) (2025-07-07T12:53:00Z) - PreGenie: An Agentic Framework for High-quality Visual Presentation Generation [44.93958820783717]
PreGenieは、マルチモーダルな大規模言語モデル(MLLM)を利用して高品質なビジュアルプレゼンテーションを生成するエージェント型でモジュール型のフレームワークである。
1)マルチモーダル入力を要約して初期コードを生成する解析と初期生成,(2)中間コードを反復的にレビューし,スライドを描画して最終品質の高いプレゼンテーションを生成するレビューと再生成の2段階で動作する。
論文 参考訳(メタデータ) (2025-05-27T18:36:19Z) - VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。
このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文 参考訳(メタデータ) (2024-01-24T18:35:21Z) - Accountable Textual-Visual Chat Learns to Reject Human Instructions in
Image Re-creation [26.933683814025475]
合成CLEVR-ATVCデータセット(620K)と手動図形Fruit-ATVCデータセット(50K)の2つの新しいマルチモーダルデータセットを紹介した。
これらのデータセットには、ビジュアルとテキストベースの入力と出力の両方が含まれている。
言語ベースのChatGPT会話と同様に、人間の要求を拒否する際のマルチモーダルシステムの説明責任を容易にするため、データセット内の監視信号として特定のルールを導入する。
論文 参考訳(メタデータ) (2023-03-10T15:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。