Fugu-MT 論文翻訳(概要): MacroBench: A Novel Testbed for Web Automation Scripts via Large Language Models

論文の概要: MacroBench: A Novel Testbed for Web Automation Scripts via Large Language Models

arxiv url: http://arxiv.org/abs/2510.04363v1
Date: Sun, 05 Oct 2025 21:15:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-07 16:52:59.605554
Title: MacroBench: A Novel Testbed for Web Automation Scripts via Large Language Models
Title（参考訳）: MacroBench: 大規模言語モデルによるWebオートメーションスクリプトのための新しいテストベッド
Authors: Hyunjun Kim, Sejong Kim,
Abstract要約: MacroBenchは、LLMが再利用可能なブラウザ自動化プログラムを自然言語の目標から合成できるかどうかを評価するコードファーストのベンチマークである。 MacroBenchは、Airbnbライク、TikTokライク、Redditライク、Instagramライク、Facebookライク、Discordライク、Threadsライクの7つのセルフホストサイトをインスタンス化する。我々のエンドツーエンドプロトコルは、静的チェック、サンドボックス実行、DOMアサーションやデータベーススナップショットを含む結果検証を通じて生成されたコードを検証する。
参考スコア（独自算出の注目度）: 10.977990951788422
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce MacroBench, a code-first benchmark that evaluates whether LLMs can synthesize reusable browser automation programs from natural language goals by reading HTML/DOM and emitting Python with Selenium. MacroBench instantiates seven self-hosted sites: Airbnb-like, TikTok-like, Reddit-like, Instagram-like, Facebook-like, Discord-like, and Threads-like, covering 681 tasks across interaction complexity and targeting difficulty. Our end-to-end protocol validates generated code via static checks, sandboxed execution, and outcome verification including DOM assertions and database snapshots, and includes a safety suite for scraping, spam/abuse, and credential/privacy prompts. Across 2636 model-task runs, we observe stratified success: GPT-4o-Mini achieves 96.8 percent, GPT-4.1 achieves 95.3 percent, Gemini-2.5-Pro achieves 89.0 percent, and DeepSeek-V3.1 achieves 83.4 percent. Models handle simple tasks reliably at 91.7 percent but fail on complex workflows at 0.0 percent, and none meet production-quality coding practices despite functional completion. We release our complete benchmark pipeline, evaluation framework, and experimental results to enable reproducible assessment of macro synthesis for web automation.
Abstract（参考訳）: 我々は、HTML/DOMを読み、SeleniumでPythonを出力することで、LLMが再利用可能なブラウザ自動化プログラムを自然言語で合成できるかどうかを評価するコードファーストベンチマークであるMacroBenchを紹介した。 MacroBenchは、Airbnbライク、TikTokライク、Redditライク、Instagramライク、Facebookライク、Discordライク、Threadsライクの7つのセルフホストサイトをインスタンス化する。我々のエンドツーエンドプロトコルは、静的チェック、サンドボックス実行、DOMアサーションやデータベーススナップショットを含む結果検証を通じて生成されたコードを検証する。 GPT-4o-Miniは96.8%、GPT-4.1は95.3%、Gemini-2.5-Proは89.0%、DeepSeek-V3.1は83.4%である。モデルは91.7%で確実に単純なタスクを処理するが、複雑なワークフローでは0.0%で失敗する。我々は、Web自動化のためのマクロ合成の再現可能な評価を可能にするために、完全なベンチマークパイプライン、評価フレームワーク、実験結果をリリースする。

関連論文リスト

A Multi-Language Object-Oriented Programming Benchmark for Large Language Models [61.267115598083315]
35の既存ベンチマークの調査では、3つの大きな不均衡が明らかになった。 85.7%は単一のプログラミング言語に重点を置いている。 94.3%は関数レベルまたはステートメントレベルのタスクのみを対象としている。 80%以上は平均10件未満のテストケースを含む。
論文参考訳（メタデータ） (2025-09-30T11:30:08Z)
WebGen-Bench: Evaluating LLMs on Generating Interactive and Functional Websites from Scratch [35.609235867316734]
マルチファイルWebサイトをスクラッチから作成するLLMベースのエージェントの能力を測定するために設計された新しいベンチマークであるWebGen-Benchを紹介する。ヒトアノテータとGPT-4oの併用によるWebサイト生成の多様な指示が含まれている。我々は、GPT-4oを使用して、命令に記述された各機能をターゲットにしたテストケースを生成し、手動でフィルタリング、調整、整理を行い、精度を保証し、647のテストケースを作成します。
論文参考訳（メタデータ） (2025-05-06T17:59:15Z)
SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文参考訳（メタデータ） (2025-03-11T17:53:02Z)
CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文参考訳（メタデータ） (2024-07-01T17:55:04Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
An Empirical Evaluation of Using Large Language Models for Automated Unit Test Generation [3.9762912548964864]
本稿では,自動単体テスト生成における大規模言語モデルの有効性について,大規模な実証評価を行った。これはJavaScript用のテスト生成ツールで、npmパッケージ内のすべてのAPI関数のユニットテストを自動的に生成します。 TestPilotの生成されたテストの92.8%は、既存のテストと50%以上の類似性を持っていない。
論文参考訳（メタデータ） (2023-02-13T17:13:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。