Fugu-MT 論文翻訳(概要): LiteWebAgent: The Open-Source Suite for VLM-Based Web-Agent Applications

論文の概要: LiteWebAgent: The Open-Source Suite for VLM-Based Web-Agent Applications

arxiv url: http://arxiv.org/abs/2503.02950v1
Date: Tue, 04 Mar 2025 19:13:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-06 17:18:40.626542
Title: LiteWebAgent: The Open-Source Suite for VLM-Based Web-Agent Applications
Title（参考訳）: LiteWebAgent: VLMベースのWebエージェントアプリケーションのためのオープンソーススイート
Authors: Danqing Zhang, Balaji Rama, Jingyi Ni, Shiying He, Fu Zhao, Kunyu Chen, Arnold Chen, Junyu Cao,
Abstract要約: LiteWebAgentは、VLMベースのWebエージェントアプリケーションのためのオープンソーススイートである。私たちのフレームワークは、Webエージェントエコシステムにおける重要なギャップに対処しています。
参考スコア（独自算出の注目度）: 5.823725179883774
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce LiteWebAgent, an open-source suite for VLM-based web agent applications. Our framework addresses a critical gap in the web agent ecosystem with a production-ready solution that combines minimal serverless backend configuration, intuitive user and browser interfaces, and extensible research capabilities in agent planning, memory, and tree search. For the core LiteWebAgent agent framework, we implemented a simple yet effective baseline using recursive function calling, providing with decoupled action generation and action grounding. In addition, we integrate advanced research components such as agent planning, agent workflow memory, and tree search in a modular and extensible manner. We then integrate the LiteWebAgent agent framework with frontend and backend as deployed systems in two formats: (1) a production Vercel-based web application, which provides users with an agent-controlled remote browser, (2) a Chrome extension leveraging LiteWebAgent's API to control an existing Chrome browser via CDP (Chrome DevTools Protocol). The LiteWebAgent framework is available at https://github.com/PathOnAI/LiteWebAgent, with deployed frontend at https://lite-web-agent.vercel.app/.
Abstract（参考訳）: 本稿では,VLM ベースの Web エージェントアプリケーションのためのオープンソーススイート LiteWebAgent を紹介する。私たちのフレームワークは、最小限のサーバレスバックエンド構成、直感的なユーザとブラウザインターフェース、エージェント計画、メモリ、ツリー検索における拡張可能な研究機能を組み合わせたプロダクション対応ソリューションによって、Webエージェントエコシステムにおける重要なギャップに対処しています。コアとなる LiteWebAgent エージェントフレームワークに対して,再帰関数呼び出しによる単純な効果的なベースラインを実装した。さらに,エージェント計画,エージェントワークフローメモリ,ツリー探索などの高度な研究コンポーネントをモジュール的で拡張可能な方法で統合する。次に、LiteWebAgentエージェントフレームワークとフロントエンドとバックエンドをデプロイされたシステムとして統合する。(1) エージェント制御されたリモートブラウザを提供する本番のVercelベースのWebアプリケーション、(2) CDP(Chrome DevTools Protocol)を介して既存のChromeブラウザを制御するLiteWebAgentのAPIを活用するChromeエクステンション。 LiteWebAgentフレームワークはhttps://github.com/PathOnAI/LiteWebAgentで利用可能だ。

関連論文リスト

Manipulating LLM Web Agents with Indirect Prompt Injection Attack via HTML Accessibility Tree [8.511846002129522]
敵はWebページHTMLにユニバーサルな敵のトリガーを埋め込んでエージェントの動作をハイジャックできることを示す。本システムは,ターゲット攻撃と一般攻撃の両方において,実際のWebサイト間で高い成功率を示す。
論文参考訳（メタデータ） (2025-07-20T03:10:13Z)
UFO2: The Desktop AgentOS [60.317812905300336]
UFO2はWindowsデスクトップ用のマルチエージェントAgentOSで、実用的なシステムレベルの自動化に発展している。我々は、20以上の現実世界のWindowsアプリケーションに対してUFO2を評価し、従来のCUAよりもロバスト性および実行精度を大幅に改善した。我々の結果は、ディープOSの統合によって、信頼性の高いユーザ指向のデスクトップ自動化へのスケーラブルな道が開けることを示している。
論文参考訳（メタデータ） (2025-04-20T13:04:43Z)
Planet as a Brain: Towards Internet of AgentSites based on AIOS Server [38.842510988395674]
AIエージェントオペレーティングシステムであるAIOSは、AIエージェントの開発、デプロイ、実行のサーバとして機能する。本稿では,エージェント登録と発見のためのエージェントHub,対話型コミュニケーションのためのエージェントChatを含む,世界初の実用的なエージェントサイトインターネット(AIOS-IoA)について紹介する。
論文参考訳（メタデータ） (2025-04-19T21:58:00Z)
Cerebrum (AIOS SDK): A Platform for Agent Development, Deployment, Distribution, and Discovery [33.89476893368382]
CerebrumはAIOS用のエージェントSDKで、3つの重要なコンポーネント間のギャップに対処します。エージェント開発のためのモジュール型の4層アーキテクチャを備えた包括的なSDK,(2)エージェントの共有と発見のためのコミュニティ主導のエージェントハブ,(3)エージェントのテストと評価のためのインタラクティブなWebインターフェース。 Cerebrumは、エージェント開発を標準化する統一されたフレームワークを提供しながら、研究者や開発者がエージェントを革新し、配布する柔軟性を維持しながら、この分野を前進させる。
論文参考訳（メタデータ） (2025-03-14T14:29:17Z)
Beyond Browsing: API-Based Web Agents [58.39129004543844]
APIベースのエージェントはWebArenaの実験でWebブラウジングエージェントを上回っている。ハイブリッドエージェント(Hybrid Agents)は、タスク全体にわたって、ほぼ均一にパフォーマンスを向上する。結果から,APIが利用可能であれば,Webブラウジングのみに依存するという,魅力的な代替手段が提示されることが強く示唆された。
論文参考訳（メタデータ） (2024-10-21T19:46:06Z)
AutoGen Studio: A No-Code Developer Tool for Building and Debugging Multi-Agent Systems [31.113305753414913]
ATOGEN STUDIOは、マルチエージェントシステムを迅速にプロトタイピングするためのノーコード開発ツールである。エージェント仕様のための直感的なドラッグ&ドロップUI、インタラクティブな評価、再利用可能なエージェントコンポーネントのギャラリーを提供する。
論文参考訳（メタデータ） (2024-08-09T03:27:37Z)
GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning [79.07152553060601]
大規模言語モデル(LLM)の安全性を高める既存の手法は、LLMエージェントに直接転送することはできない。我々は、他のLLMエージェントに対するガードレールとして、最初のLLMエージェントであるGuardAgentを提案する。 GuardAgentは、1)提供されたガードリクエストを分析してタスクプランを作成し、2)タスクプランに基づいてガードレールコードを生成し、APIを呼び出すか、または外部エンジンを使用してコードを実行する。
論文参考訳（メタデータ） (2024-06-13T14:49:26Z)
CAAP: Context-Aware Action Planning Prompting to Solve Computer Tasks with Front-End UI Only [21.054681757006385]
本稿では,スクリーンショット画像のみを通して環境を知覚するエージェントを提案する。大規模言語モデルの推論能力を活用することで,大規模人間の実演データの必要性を解消する。 AgentはMiniWoB++の平均成功率は94.5%、WebShopの平均タスクスコアは62.3である。
論文参考訳（メタデータ） (2024-06-11T05:21:20Z)
AgentKit: Structured LLM Reasoning with Dynamic Graphs [91.09525140733987]
多機能エージェントのための直感的なLCMプロンプトフレームワーク(AgentKit)を提案する。 AgentKitは、単純な自然言語プロンプトから複雑な"思考プロセス"を明示的に構築するための統一されたフレームワークを提供する。
論文参考訳（メタデータ） (2024-04-17T15:40:45Z)
AgentLite: A Lightweight Library for Building and Advancing Task-Oriented LLM Agent System [91.41155892086252]
LLMエージェントの研究を簡略化する新しいAIエージェントライブラリであるAgentLiteをオープンソースとして公開する。 AgentLiteは、タスクを分解するエージェントの機能を強化するために設計されたタスク指向フレームワークである。我々は,その利便性と柔軟性を示すために,AgentLiteで開発された実用アプリケーションを紹介した。
論文参考訳（メタデータ） (2024-02-23T06:25:20Z)
OpenAgents: An Open Platform for Language Agents in the Wild [71.16800991568677]
OpenAgentsは、日々の生活の中で言語エージェントを使い、ホストするためのオープンなプラットフォームです。我々は課題と機会を解明し、現実世界の言語エージェントの将来の研究と開発の基礎を築きたいと考えています。
論文参考訳（メタデータ） (2023-10-16T17:54:53Z)
Agents: An Open-source Framework for Autonomous Language Agents [98.91085725608917]
我々は、言語エージェントを人工知能への有望な方向と見なしている。 Agentsはオープンソースライブラリで、これらの進歩を広く非専門的な聴衆に開放することを目的としています。
論文参考訳（メタデータ） (2023-09-14T17:18:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。