論文の概要: LiteWebAgent: The Open-Source Suite for VLM-Based Web-Agent Applications
- arxiv url: http://arxiv.org/abs/2503.02950v1
- Date: Tue, 04 Mar 2025 19:13:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:53:21.648885
- Title: LiteWebAgent: The Open-Source Suite for VLM-Based Web-Agent Applications
- Title(参考訳): LiteWebAgent: VLMベースのWebエージェントアプリケーションのためのオープンソーススイート
- Authors: Danqing Zhang, Balaji Rama, Jingyi Ni, Shiying He, Fu Zhao, Kunyu Chen, Arnold Chen, Junyu Cao,
- Abstract要約: LiteWebAgentは、VLMベースのWebエージェントアプリケーションのためのオープンソーススイートである。
私たちのフレームワークは、Webエージェントエコシステムにおける重要なギャップに対処しています。
- 参考スコア(独自算出の注目度): 5.823725179883774
- License:
- Abstract: We introduce LiteWebAgent, an open-source suite for VLM-based web agent applications. Our framework addresses a critical gap in the web agent ecosystem with a production-ready solution that combines minimal serverless backend configuration, intuitive user and browser interfaces, and extensible research capabilities in agent planning, memory, and tree search. For the core LiteWebAgent agent framework, we implemented a simple yet effective baseline using recursive function calling, providing with decoupled action generation and action grounding. In addition, we integrate advanced research components such as agent planning, agent workflow memory, and tree search in a modular and extensible manner. We then integrate the LiteWebAgent agent framework with frontend and backend as deployed systems in two formats: (1) a production Vercel-based web application, which provides users with an agent-controlled remote browser, (2) a Chrome extension leveraging LiteWebAgent's API to control an existing Chrome browser via CDP (Chrome DevTools Protocol). The LiteWebAgent framework is available at https://github.com/PathOnAI/LiteWebAgent, with deployed frontend at https://lite-web-agent.vercel.app/.
- Abstract(参考訳): 本稿では,VLM ベースの Web エージェントアプリケーションのためのオープンソーススイート LiteWebAgent を紹介する。
私たちのフレームワークは、最小限のサーバレスバックエンド構成、直感的なユーザとブラウザインターフェース、エージェント計画、メモリ、ツリー検索における拡張可能な研究機能を組み合わせたプロダクション対応ソリューションによって、Webエージェントエコシステムにおける重要なギャップに対処しています。
コアとなる LiteWebAgent エージェントフレームワークに対して,再帰関数呼び出しによる単純な効果的なベースラインを実装した。
さらに,エージェント計画,エージェントワークフローメモリ,ツリー探索などの高度な研究コンポーネントをモジュール的で拡張可能な方法で統合する。
次に、LiteWebAgentエージェントフレームワークとフロントエンドとバックエンドをデプロイされたシステムとして統合する。(1) エージェント制御されたリモートブラウザを提供する本番のVercelベースのWebアプリケーション、(2) CDP(Chrome DevTools Protocol)を介して既存のChromeブラウザを制御するLiteWebAgentのAPIを活用するChromeエクステンション。
LiteWebAgentフレームワークはhttps://github.com/PathOnAI/LiteWebAgentで利用可能だ。
関連論文リスト
- Beyond Browsing: API-Based Web Agents [58.39129004543844]
APIベースのエージェントはWebArenaの実験でWebブラウジングエージェントを上回っている。
ハイブリッドエージェント(Hybrid Agents)は、タスク全体にわたって、ほぼ均一にパフォーマンスを向上する。
結果から,APIが利用可能であれば,Webブラウジングのみに依存するという,魅力的な代替手段が提示されることが強く示唆された。
論文 参考訳(メタデータ) (2024-10-21T19:46:06Z) - AutoGen Studio: A No-Code Developer Tool for Building and Debugging Multi-Agent Systems [31.113305753414913]
ATOGEN STUDIOは、マルチエージェントシステムを迅速にプロトタイピングするためのノーコード開発ツールである。
エージェント仕様のための直感的なドラッグ&ドロップUI、インタラクティブな評価、再利用可能なエージェントコンポーネントのギャラリーを提供する。
論文 参考訳(メタデータ) (2024-08-09T03:27:37Z) - GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning [79.07152553060601]
大規模言語モデル(LLM)の安全性を高める既存の手法は、LLMエージェントに直接転送することはできない。
我々は、他のLLMエージェントに対するガードレールとして、最初のLLMエージェントであるGuardAgentを提案する。
GuardAgentは、1)提供されたガードリクエストを分析してタスクプランを作成し、2)タスクプランに基づいてガードレールコードを生成し、APIを呼び出すか、または外部エンジンを使用してコードを実行する。
論文 参考訳(メタデータ) (2024-06-13T14:49:26Z) - CAAP: Context-Aware Action Planning Prompting to Solve Computer Tasks with Front-End UI Only [21.054681757006385]
本稿では,スクリーンショット画像のみを通して環境を知覚するエージェントを提案する。
大規模言語モデルの推論能力を活用することで,大規模人間の実演データの必要性を解消する。
AgentはMiniWoB++の平均成功率は94.5%、WebShopの平均タスクスコアは62.3である。
論文 参考訳(メタデータ) (2024-06-11T05:21:20Z) - AgentKit: Structured LLM Reasoning with Dynamic Graphs [91.09525140733987]
多機能エージェントのための直感的なLCMプロンプトフレームワーク(AgentKit)を提案する。
AgentKitは、単純な自然言語プロンプトから複雑な"思考プロセス"を明示的に構築するための統一されたフレームワークを提供する。
論文 参考訳(メタデータ) (2024-04-17T15:40:45Z) - AgentLite: A Lightweight Library for Building and Advancing
Task-Oriented LLM Agent System [91.41155892086252]
LLMエージェントの研究を簡略化する新しいAIエージェントライブラリであるAgentLiteをオープンソースとして公開する。
AgentLiteは、タスクを分解するエージェントの機能を強化するために設計されたタスク指向フレームワークである。
我々は,その利便性と柔軟性を示すために,AgentLiteで開発された実用アプリケーションを紹介した。
論文 参考訳(メタデータ) (2024-02-23T06:25:20Z) - OpenAgents: An Open Platform for Language Agents in the Wild [71.16800991568677]
OpenAgentsは、日々の生活の中で言語エージェントを使い、ホストするためのオープンなプラットフォームです。
我々は課題と機会を解明し、現実世界の言語エージェントの将来の研究と開発の基礎を築きたいと考えています。
論文 参考訳(メタデータ) (2023-10-16T17:54:53Z) - Agents: An Open-source Framework for Autonomous Language Agents [98.91085725608917]
我々は、言語エージェントを人工知能への有望な方向と見なしている。
Agentsはオープンソースライブラリで、これらの進歩を広く非専門的な聴衆に開放することを目的としています。
論文 参考訳(メタデータ) (2023-09-14T17:18:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。