論文の概要: EmbeWebAgent: Embedding Web Agents into Any Customized UI
- arxiv url: http://arxiv.org/abs/2602.14865v1
- Date: Mon, 16 Feb 2026 15:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.525643
- Title: EmbeWebAgent: Embedding Web Agents into Any Customized UI
- Title(参考訳): EmbeWebAgent: 任意のカスタムUIにWebエージェントを埋め込む
- Authors: Chenyang Ma, Clyde Fare, Matthew Wilson, Dave Braines,
- Abstract要約: EmbeWebAgentはエージェントを直接既存のUIに埋め込むフレームワークです。
プリミティブからハイレベルコンポジットまで、混合粒度作用をサポートする。
私たちのデモでは、ライブUI設定で最小限の再適合と堅牢なマルチステップ動作を示しています。
- 参考スコア(独自算出の注目度): 3.034887612600091
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most web agents operate at the human interface level, observing screenshots or raw DOM trees without application-level access, which limits robustness and action expressiveness. In enterprise settings, however, explicit control of both the frontend and backend is available. We present EmbeWebAgent, a framework for embedding agents directly into existing UIs using lightweight frontend hooks (curated ARIA and URL-based observations, and a per-page function registry exposed via a WebSocket) and a reusable backend workflow that performs reasoning and takes actions. EmbeWebAgent is stack-agnostic (e.g., React or Angular), supports mixed-granularity actions ranging from GUI primitives to higher-level composites, and orchestrates navigation, manipulation, and domain-specific analytics via MCP tools. Our demo shows minimal retrofitting effort and robust multi-step behaviors grounded in a live UI setting. Live Demo: https://youtu.be/Cy06Ljee1JQ
- Abstract(参考訳): ほとんどのWebエージェントはヒューマンインターフェースレベルで動作し、アプリケーションレベルのアクセスなしでスクリーンショットや生のDOMツリーを観察し、堅牢性とアクション表現性を制限する。
しかし、エンタープライズ環境では、フロントエンドとバックエンドの両方を明示的にコントロールできる。
EmbeWebAgentは、軽量なフロントエンドフック(ARIAおよびURLベースの観察、WebSocket経由で公開されるページ毎の関数レジストリ)と、推論とアクションを実行する再利用可能なバックエンドワークフローを使って、エージェントを直接既存のUIに組み込むフレームワークです。
EmbeWebAgentはスタックに依存しない(例えば、ReactやAngular)、GUIプリミティブから高レベルのコンポジットまで、混合粒度アクションをサポートし、ナビゲーション、操作、MSPツールによるドメイン固有の分析をオーケストレーションする。
私たちのデモでは、ライブUI設定で最小限の再適合と堅牢なマルチステップ動作を示しています。
Live Demo: https://youtu.be/Cy06Ljee1JQ
関連論文リスト
- Permission Manifests for Web Agents [30.22217505383227]
LLM(Large Language Model)ベースのWebエージェントの台頭は、Webとの対話の自動化において、大きな変化をもたらしている。
どのインタラクションが許可されているかを指定する方法がないため、Webサイトオーナーはますます、ブランケットブロッキングとCAPTCHAに依存している。
ロボット.txtスタイルのインターフェースマニフェストであるエージェントパーミッションを導入し,API参照によって補完される,Webサイトが許可されたインタラクションを指定する。
論文 参考訳(メタデータ) (2025-12-07T17:45:01Z) - WebVIA: A Web-based Vision-Language Agentic Framework for Interactive and Verifiable UI-to-Code Generation [30.193562985137813]
インタラクティブなUI-to-Code生成とバリデーションのための最初のエージェントフレームワークであるWebVIAを提案する。
フレームワークには,1)マルチステートUIスクリーンショットをキャプチャする探索エージェント,2)実行可能なインタラクティブコードを生成するUI2Codeモデル,3)対話性を検証する検証モジュールの3つのコンポーネントが含まれている。
論文 参考訳(メタデータ) (2025-11-09T06:58:52Z) - BrowserAgent: Building Web Agents with Human-Inspired Web Browsing Actions [48.194688161526756]
BrowserAgentは、事前に定義されたブラウザアクションのセットを通じて、Playwright経由で生のWebページで直接動作する。
ステップ間で重要な結論を格納するための明示的なメモリ機構を導入し、モデルの推論能力をさらに強化する。
論文 参考訳(メタデータ) (2025-10-12T15:43:37Z) - WALT: Web Agents that Learn Tools [66.73502484310121]
WALTは、Webサイト機能を再利用不能なツールにリバースエンジニアリングするフレームワークである。
WALTはアドホックなスキルを仮説化するのではなく、既にウェブサイトに設計されている自動化の堅牢な実装を公開している。
VisualWebArenaとWebArenaでは、WALTはより少ないステップとLLM依存の推論でより高い成功を達成している。
論文 参考訳(メタデータ) (2025-10-01T23:41:47Z) - Infogent: An Agent-Based Framework for Web Information Aggregation [59.67710556177564]
我々はWeb情報集約のための新しいフレームワークInfogentを紹介する。
異なる情報アクセス設定の実験では、Infogentが既存のSOTAマルチエージェント検索フレームワークを7%上回った。
論文 参考訳(メタデータ) (2024-10-24T18:01:28Z) - Beyond Browsing: API-Based Web Agents [58.39129004543844]
APIベースのエージェントはWebArenaの実験でWebブラウザエージェントを上回っている。
ハイブリッドエージェント(Hybrid Agents)は、タスク全体にわたって、ほぼ均一にパフォーマンスを向上する。
結果から,APIが利用可能であれば,Webブラウジングのみに依存するという,魅力的な代替手段が提示されることが強く示唆された。
論文 参考訳(メタデータ) (2024-10-21T19:46:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。