論文の概要: webMCP: Efficient AI-Native Client-Side Interaction for Agent-Ready Web Design
- arxiv url: http://arxiv.org/abs/2508.09171v1
- Date: Wed, 06 Aug 2025 23:02:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.576046
- Title: webMCP: Efficient AI-Native Client-Side Interaction for Agent-Ready Web Design
- Title(参考訳): webMCP: エージェント対応Web設計のための効率的なAI-Native Client-Sideインタラクション
- Authors: D. Perera,
- Abstract要約: 現在のAIエージェントは、Webページを理解するために広範な処理を必要とすることで、ユーザにとって大きな障壁を生み出します。
本稿では,Webページに直接構造化されたインタラクションメタデータを埋め込むクライアントサイド標準であるWebMCPを紹介する。
webMCPは処理要求を67.6%削減し、97.9%のタスク成功率を維持している。
ユーザはコストを大幅に削減し(34-63%の削減)、さまざまなWebインタラクションでレスポンス時間を短縮する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current AI agents create significant barriers for users by requiring extensive processing to understand web pages, making AI-assisted web interaction slow and expensive. This paper introduces webMCP (Web Machine Context & Procedure), a client-side standard that embeds structured interaction metadata directly into web pages, enabling more efficient human-AI collaboration on existing websites. webMCP transforms how AI agents understand web interfaces by providing explicit mappings between page elements and user actions. Instead of processing entire HTML documents, agents can access pre-structured interaction data, dramatically reducing computational overhead while maintaining task accuracy. A comprehensive evaluation across 1,890 real API calls spanning online shopping, authentication, and content management scenarios demonstrates webMCP reduces processing requirements by 67.6% while maintaining 97.9% task success rates compared to 98.8% for traditional approaches. Users experience significantly lower costs (34-63% reduction) and faster response times across diverse web interactions. Statistical analysis confirms these improvements are highly significant across multiple AI models. An independent WordPress deployment study validates practical applicability, showing consistent improvements across real-world content management workflows. webMCP requires no server-side modifications, making it deployable across millions of existing websites without technical barriers. These results establish webMCP as a viable solution for making AI web assistance more accessible and sustainable, addressing the critical gap between user interaction needs and AI computational requirements in production environments.
- Abstract(参考訳): 現在のAIエージェントは、Webページを理解するために広範囲な処理を必要とし、AI支援のWebインタラクションを遅くて高価なものにすることで、ユーザにとって大きな障壁を生み出している。
本稿では,Web ページに直接構造化されたインタラクションメタデータを埋め込むクライアントサイド標準である webMCP (Web Machine Context & Procedure) を紹介する。
webMCPは、ページ要素とユーザアクション間の明示的なマッピングを提供することで、AIエージェントがWebインターフェースを理解する方法を変える。
HTMLドキュメント全体を処理する代わりに、エージェントは事前構造化されたインタラクションデータにアクセスでき、タスクの正確性を維持しながら計算オーバーヘッドを劇的に削減できる。
オンラインショッピング、認証、コンテンツ管理のシナリオにまたがる1,890の実際のAPIコールに対する包括的な評価では、webMCPは従来の98.8%に比べて97.9%のタスク成功率を維持しながら、処理要求を67.6%削減している。
ユーザはコストを大幅に削減し(34-63%の削減)、さまざまなWebインタラクションでレスポンス時間を短縮する。
統計的分析によると、これらの改善は複数のAIモデルで非常に重要である。
WordPressの独立したデプロイメント調査は、現実のコンテンツ管理ワークフロー間で一貫した改善を示す、実用的な適用性を検証する。
webMCPはサーバサイドの変更を必要としないため、技術的障壁なしに数百万の既存のWebサイトにデプロイできる。
これらの結果は、ユーザインタラクションのニーズと運用環境におけるAI計算要求との間の重要なギャップに対処するため、AI Webアシストをよりアクセシブルで持続可能なものにするための実行可能なソリューションとして、webMCPを確立します。
関連論文リスト
- Build the web for agents, not agents for the web [27.969222950526703]
本稿では,エージェントがWebサイトをナビゲートするためのインターフェースであるAWI(Agentic Web Interface)の概念を紹介する。
AWI設計の原則を6つ確立し,安全性,効率,標準化を重視した。
このリフレーミングは、既存のインターフェイスの基本的な制限を克服し、より効率的で信頼性があり透明なWebエージェント設計への道を開くことを目的としています。
論文 参考訳(メタデータ) (2025-06-12T17:53:58Z) - WebGames: Challenging General-Purpose Web-Browsing AI Agents [11.320069795732058]
WebGamesは汎用的なWebブラウザAIエージェントを評価するために設計された包括的なベンチマークスイートである。
GPT-4o, Claude Computer-Use, Gemini-1.5-Pro, Qwen2-VLなどの視覚言語モデルを人為的性能に対して評価した。
その結果、最高のAIシステムは、人間のパフォーマンスが95.7%であるのに対して、43.1%の成功率しか達成していない。
論文 参考訳(メタデータ) (2025-02-25T16:45:08Z) - R2D2: Remembering, Replaying and Dynamic Decision Making with a Reflective Agentic Memory [53.94879482534949]
現在のモデルは、Web構造の可視化と理解が限られているため、効率的なナビゲーションとアクション実行に苦しむことが多い。
提案したR2D2フレームワークは,2つのパラダイムを統合することで,これらの課題に対処する。
本研究は,記憶を増強したナビゲーションと反射学習を組み合わせることで,Webエージェントの能力が向上することが示唆された。
論文 参考訳(メタデータ) (2025-01-21T20:21:58Z) - TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks [52.46737975742287]
我々は、デジタルワーカーと同じような方法で世界と対話するAIエージェントを評価するためのベンチマークであるTheAgentCompanyを紹介する。
最も競争力のあるエージェントは、タスクの30%を自律的に完了させることができる。
これは、実際の職場の設定でLMエージェントをシミュレートすることで、タスク自動化に関する微妙な絵を描く。
論文 参考訳(メタデータ) (2024-12-18T18:55:40Z) - PAFFA: Premeditated Actions For Fast Agents [19.576180667174366]
PAFFAは、新しい推論時間手法を用いて、インターネット上でのタスクの完了を高速かつ正確にする手法である。
PAFFAは、堅牢なパフォーマンスを維持しながら、推論時間トークンを87%大幅に削減する。
調査に基づいてアクションライブラリを更新するUnravelの能力は、目に見えないウェブサイトへの一般化と適応を可能にする。
論文 参考訳(メタデータ) (2024-12-10T22:51:31Z) - WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models [65.18602126334716]
既存のWebエージェントは1つの入力モダリティしか処理せず、単純化されたWebシミュレータや静的なWebスナップショットでのみ評価される。
我々は,WebVoyagerを紹介した。LMM(Large Multimodal Model)を利用したWebエージェントで,現実世界のWebサイトと対話することで,エンド・ツー・エンドでのユーザ指示を完了することができる。
GPT-4(All Tools)とWebVoyager(text-only)の両方のパフォーマンスを大幅に上回る、59.1%のタスク成功率を実現していることを示す。
論文 参考訳(メタデータ) (2024-01-25T03:33:18Z) - MobileAgent: enhancing mobile control via human-machine interaction and
SOP integration [0.0]
大規模言語モデル(LLM)は、ユーザのためのモバイルデバイス操作を自動化できるようになった。
パーソナライズされたユーザデータに関するプライバシー上の懸念は、モバイル操作中に発生し、ユーザ確認が必要になる。
エージェントと人間間の対話的なタスクを設計し、機密情報を識別し、パーソナライズされたユーザニーズに合わせる。
提案手法は,複数ステップのタスクにまたがる30Kのユニークな命令を含む新しいデバイス制御ベンチマークであるAitWで評価される。
論文 参考訳(メタデータ) (2024-01-04T03:44:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。