論文の概要: HTMLCure: Turning Browser Experience into State Guided Repair for Interactive HTML
- arxiv url: http://arxiv.org/abs/2605.26807v1
- Date: Tue, 26 May 2026 10:22:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.87792
- Title: HTMLCure: Turning Browser Experience into State Guided Repair for Interactive HTML
- Title(参考訳): HTMLCure: ブラウザエクスペリエンスをインタラクティブなHTMLのステートガイドによる修復に変換する
- Authors: Jiajun Wu, Jian Yang, Tuney Zheng, Wei Zhang, Haowen Wang, Yihang Lou, Xianglong Liu,
- Abstract要約: システムと対話した後にHTMLを評価するブラウザエクスペリエンスフレームワークであるHTMLCureを紹介する。
HTMLCureは現在のページを診断し、状態固有の修復ファミリを選択し、各候補を再度実行し、品質の高いクリアページをSFTにエクスポートする。
リリースされたMiniAppBenchバリデーションスプリットでは平均81.2に達し、生の27B SFTを15.3ポイント改善した。
- 参考スコア(独自算出の注目度): 33.943617790688556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs can now produce full HTML pages, but many of those pages are only superficially correct: they render once, then fail under scroll, hover, click, resize, or gameplay. Evaluation from screenshots can miss these failures, and filtering discards many pages that are still repairable. We introduce HTMLCure, a browser experience framework that evaluates HTML after the system has interacted with it. The evaluator executes the page across viewports and interaction states, records deterministic browser evidence, and gives the VLM curated keyframes from the executed trajectory rather than isolated screenshots. The same state signal drives a closed loop repair engine: HTMLCure diagnoses the current page, chooses a state specific repair family, runs each candidate again, and exports quality cleared pages for SFT. On a 97K prompt corpus, this expands the directly usable seed into a candidate pool of 63703 quality cleared pages, from which we construct the final refined SFT set of 40K pages. Under the same backbone and training recipe, HTMLCure-27B-Refined reaches 50.6 on HTMLBench-400 with 45.2% deterministic test case pass, placing it in the same performance band as strong reference rows such as Kimi-K2.6 and GPT-5.4. On the released MiniAppBench validation split, it reaches 81.2 average, improving raw 27B SFT by 15.3 points and approaching the level of strong reference systems.
- Abstract(参考訳): LLMは完全なHTMLページを生成することができるが、それらのページの多くは表面的には正しいだけであり、一度レンダリングしてからスクロール、ホバー、クリック、リサイズ、ゲームプレイで失敗する。
スクリーンショットからの評価は、これらの失敗を見逃し、まだ修復可能な多くのページをフィルタリングする。
システムと対話した後にHTMLを評価するブラウザエクスペリエンスフレームワークであるHTMLCureを紹介する。
評価者は、ビューポートとインタラクション状態を越えてページを実行し、決定論的ブラウザエビデンスを記録し、孤立したスクリーンショットではなく、実行された軌跡からVLMキュレートされたキーフレームを与える。
HTMLCureは現在のページを診断し、状態固有の修復ファミリを選択し、各候補を再度実行し、品質をクリアしたページをSFTにエクスポートする。
97Kプロンプトコーパスでは、直接使用可能なシードを63703のクオリティページの候補プールに拡張し、40Kページの最終的な精細化SFTセットを構築する。
同じバックボーンとトレーニングのレシピの下で、HTMLCure-27B-RefinedはHTMLBench-400で50.6に達し、45.2%の決定論的テストケースパスを持ち、Kim-K2.6やGPT-5.4のような強力な参照行と同じパフォーマンスバンドに配置した。
リリースされたMiniAppBenchバリデーションスプリットでは、平均81.2に達し、生の27B SFTを15.3ポイント改善し、強力な参照システムのレベルに近づいた。
関連論文リスト
- WCXB: A Multi-Type Web Content Extraction Benchmark [0.0]
我々は1,613ドメインから2,008ページのデータセットであるWeb Content extract Benchmark (WCXB)を紹介した。
データセットは、1,497ページの開発セットと、マッチしたページタイプの分布を持つ511ページの保留テストセットを含む。
13の抽出システムを評価し,トップシステムは記事に収束する一方で,構造化ページタイプによって性能が著しく変化していることを見出した。
論文 参考訳(メタデータ) (2026-05-20T12:28:12Z) - How Far Is Document Parsing from Solved? PureDocBench: A Source-TraceableBenchmark across Clean, Degraded, and Real-World Settings [56.70440596502351]
昨年は20以上のオープンドキュメントパースモデルが見られたが、ベンチマークはほぼOmniDocBenchにのみ依存している。
HTML/CSSのドキュメントイメージをレンダリングするベンチマークであるPureDocBenchは、10のドメイン、66ページ、1,475ページをカバーしています。
論文 参考訳(メタデータ) (2026-05-08T09:30:31Z) - AICC: Parse HTML Finer, Make Models Better -- A 7.3T AI-Ready Corpus Built by a Model-Based HTML Parser [54.623900859999424]
我々は、コンテンツ抽出をシーケンスラベリング問題として再構成する新しい抽出パイプラインであるMinerU-HTMLを紹介する。
MainWebBenchでは、7,887の注釈付きWebページ、MinerU-HTML 81.8%のROUGE-N F1をTrfilaturaの63.6%と比較した。
論文 参考訳(メタデータ) (2025-11-20T14:15:23Z) - MacroBench: A Novel Testbed for Web Automation Scripts via Large Language Models [10.977990951788422]
我々は、HTML/DOMを読み、Seleniumを出力することで、LLMが再利用可能なブラウザ自動プログラム(マクロ)を自然言語で合成できるかどうかを評価するコードファーストベンチマークであるMacroBenchを紹介した。
MacroBenchは、681のタスクをカバーする7つのセルフホストサイトを、インタラクションの複雑さとターゲティングの難しさでインスタンス化する。
GPT-4o-mini (96.8%), GPT-4o (95.3%), Gemini (89.0%), DeepSeek (83.4%)
論文 参考訳(メタデータ) (2025-10-05T21:15:11Z) - Decoding Latent Attack Surfaces in LLMs: Prompt Injection via HTML in Web Summarization [1.3537117504260623]
大規模言語モデル(LLM)は、コンテンツ要約のためのWebベースシステムに統合されつつある。
本研究では、Webページの可視コンテンツを変更することなく、非可視的なHTML要素をどのように活用して敵の命令を埋め込むかを検討する。
論文 参考訳(メタデータ) (2025-09-06T21:05:18Z) - HtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge in RAG Systems [62.36019283532854]
Retrieval-Augmented Generation (RAG) は知識能力の向上とLLMの幻覚の軽減を目的としている。
本稿では,RAGにおける検索された知識の形式として,平易なテキストの代わりにHTMLを使用するRAGを提案する。
論文 参考訳(メタデータ) (2024-11-05T09:58:36Z) - AutoScraper: A Progressive Understanding Web Agent for Web Scraper Generation [54.17246674188208]
Webスクレイピングは、Webサイトからデータを抽出し、自動データ収集を可能にし、データ分析機能を強化し、手動のデータ入力作業を最小化する強力なテクニックである。
既存の手法では、ラッパーベースの手法は、新しいウェブサイトで直面する場合、適応性とスケーラビリティの制限に悩まされる。
本稿では,大規模言語モデル(LLM)を用いたWebスクレイパー生成のパラダイムを紹介し,多様なWeb環境をより効率的に処理できる2段階フレームワークであるAutoScraperを提案する。
論文 参考訳(メタデータ) (2024-04-19T09:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。