論文の概要: MiniAppBench: Evaluating the Shift from Text to Interactive HTML Responses in LLM-Powered Assistants
- arxiv url: http://arxiv.org/abs/2603.09652v1
- Date: Tue, 10 Mar 2026 13:30:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.335277
- Title: MiniAppBench: Evaluating the Shift from Text to Interactive HTML Responses in LLM-Powered Assistants
- Title(参考訳): MiniAppBench: LLMベースのアシスタントにおけるテキストからインタラクティブなHTML応答へのシフトを評価する
- Authors: Zuhao Zhang, Chengyue Yu, Yuante Li, Chenyi Zhuang, Linjian Mo, Shuai Li,
- Abstract要約: MiniAppsは動的でインタラクティブなHTMLベースのアプリケーションで、現実世界の原則に準拠している。
既存のベンチマークは主にアルゴリズムの正確性や静的なレイアウト再構築に焦点を当てている。
原理駆動でインタラクティブなアプリケーション生成を評価するために設計された,最初の包括的なベンチマークであるMiniAppBenchを紹介する。
また,エージェント評価フレームワークであるMiniAppEvalを提案する。
- 参考スコア(独自算出の注目度): 15.81416663487443
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the rapid advancement of Large Language Models (LLMs) in code generation, human-AI interaction is evolving from static text responses to dynamic, interactive HTML-based applications, which we term MiniApps. These applications require models to not only render visual interfaces but also construct customized interaction logic that adheres to real-world principles. However, existing benchmarks primarily focus on algorithmic correctness or static layout reconstruction, failing to capture the capabilities required for this new paradigm. To address this gap, we introduce MiniAppBench, the first comprehensive benchmark designed to evaluate principle-driven, interactive application generation. Sourced from a real-world application with 10M+ generations, MiniAppBench distills 500 tasks across six domains (e.g., Games, Science, and Tools). Furthermore, to tackle the challenge of evaluating open-ended interactions where no single ground truth exists, we propose MiniAppEval, an agentic evaluation framework. Leveraging browser automation, it performs human-like exploratory testing to systematically assess applications across three dimensions: Intention, Static, and Dynamic. Our experiments reveal that current LLMs still face significant challenges in generating high-quality MiniApps, while MiniAppEval demonstrates high alignment with human judgment, establishing a reliable standard for future research. Our code is available in github.com/MiniAppBench.
- Abstract(参考訳): コード生成におけるLarge Language Models(LLM)の急速な進歩により、静的テキスト応答から動的でインタラクティブなHTMLベースのアプリケーションへと、人間とAIのインタラクションが進化している。
これらのアプリケーションは、ビジュアルインターフェースをレンダリングするだけでなく、現実世界の原則に準拠したカスタマイズされたインタラクションロジックを構築する必要がある。
しかし、既存のベンチマークは主にアルゴリズムの正確性や静的なレイアウトの再構築に重点を置いており、この新しいパラダイムに必要な能力を捉えていない。
このギャップに対処するために、原理駆動のインタラクティブなアプリケーション生成を評価するために設計された最初の包括的なベンチマークであるMiniAppBenchを紹介します。
10M以上の世代を持つ現実世界のアプリケーションから生まれたMiniAppBenchは、6つのドメイン(ゲーム、サイエンス、ツールなど)にわたる500のタスクを蒸留する。
さらに,単一の真実が存在しないオープンエンドインタラクションの評価に挑戦するため,エージェント評価フレームワークであるMiniAppEvalを提案する。
ブラウザの自動化を活用して、インテンション、静的、動的という3つの次元にわたるアプリケーションを体系的に評価する、人間ライクな探索テストを実行する。
我々の実験によると、現在のLLMは高品質のMiniAppsを生成する上で大きな課題に直面しており、MiniAppEvalは人間の判断と高い整合性を示し、将来の研究の信頼できる標準を確立している。
私たちのコードはgithub.com/MiniAppBenchで利用可能です。
関連論文リスト
- AppForge: From Assistant to Independent Developer - Are GPTs Ready for Software Development? [28.63033734662797]
APPFORGEは、現実世界のAndroidアプリから引き出された101のソフトウェア開発問題からなるベンチマークである。
アプリケーション文書から主要な機能を自動で要約するマルチエージェントシステムを設計し、テストケースを合成するためにアプリをナビゲートする。
Android開発専門家による厳格な手作業による検証に続いて、APPFORGEでは、テストケースを自動評価フレームワークに組み込んでいる。
論文 参考訳(メタデータ) (2025-10-09T03:26:05Z) - IWR-Bench: Can LVLMs reconstruct interactive webpage from a user interaction video? [56.33950760097989]
IWR-Benchは、ビデオからインタラクティブなWebページ再構築におけるLVLM(Large Vision-Language Models)の機能を評価するための新しいベンチマークである。
IWR-Benchは100の現実世界のウェブサイトから1,001のアクションで1,3の精巧にキュレートされたタスクで構成されている。
このベンチマークは、ビデオとアセットからインタラクションロジックを推論する包括的なマルチモーダル推論と、このロジックを関数コードに変換するための高度なコード生成という、2つの基本的な課題に関するモデルを評価する。
論文 参考訳(メタデータ) (2025-09-29T12:38:06Z) - You Don't Know Until You Click:Automated GUI Testing for Production-Ready Software Evaluation [24.956175875766952]
RealDevWorldは、大規模言語モデル(LLM)とソフトウェア開発におけるコードエージェントの評価フレームワークである。
主なコンポーネントは、194のオープンエンドソフトウェアエンジニアリングタスクのコレクションであるRealDevBenchと、新しいエージェント・アズ・ア・ジャッジ評価システムであるAppEvalPilotだ。
実証的な結果は、RealDevWorldが効果的で、自動で、そして、人間に沿った評価を提供することを示している。
論文 参考訳(メタデータ) (2025-08-17T07:31:11Z) - ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation [51.297873393639456]
ArtifactsBenchは自動ビジュアルコード生成評価のためのフレームワークである。
我々のフレームワークは、生成した各アーティファクトをレンダリングし、時間的スクリーンショットを通してその動的な振る舞いをキャプチャする。
我々は1,825の多様なタスクの新しいベンチマークを構築し、30以上の主要な大規模言語モデルを評価する。
論文 参考訳(メタデータ) (2025-07-07T12:53:00Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - Interaction2Code: Benchmarking MLLM-based Interactive Webpage Code Generation from Interactive Prototyping [57.024913536420264]
MLLM(Multimodal Large Language Models)は、設計からコードへのタスクにおいて顕著な性能を示す。
本稿では,インタラクティブなWebページを生成する上で,MLLMを初めて体系的に研究する。
論文 参考訳(メタデータ) (2024-11-05T17:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。