論文の概要: Build the web for agents, not agents for the web
- arxiv url: http://arxiv.org/abs/2506.10953v1
- Date: Thu, 12 Jun 2025 17:53:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.89058
- Title: Build the web for agents, not agents for the web
- Title(参考訳): Webのエージェントではなく、エージェントのためのWebを構築する
- Authors: Xing Han Lù, Gaurav Kamath, Marius Mosbach, Siva Reddy,
- Abstract要約: 本稿では,エージェントがWebサイトをナビゲートするためのインターフェースであるAWI(Agentic Web Interface)の概念を紹介する。
AWI設計の原則を6つ確立し,安全性,効率,標準化を重視した。
このリフレーミングは、既存のインターフェイスの基本的な制限を克服し、より効率的で信頼性があり透明なWebエージェント設計への道を開くことを目的としています。
- 参考スコア(独自算出の注目度): 27.969222950526703
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Large Language Models (LLMs) and multimodal counterparts have spurred significant interest in developing web agents -- AI systems capable of autonomously navigating and completing tasks within web environments. While holding tremendous promise for automating complex web interactions, current approaches face substantial challenges due to the fundamental mismatch between human-designed interfaces and LLM capabilities. Current methods struggle with the inherent complexity of web inputs, whether processing massive DOM trees, relying on screenshots augmented with additional information, or bypassing the user interface entirely through API interactions. This position paper advocates for a paradigm shift in web agent research: rather than forcing web agents to adapt to interfaces designed for humans, we should develop a new interaction paradigm specifically optimized for agentic capabilities. To this end, we introduce the concept of an Agentic Web Interface (AWI), an interface specifically designed for agents to navigate a website. We establish six guiding principles for AWI design, emphasizing safety, efficiency, and standardization, to account for the interests of all primary stakeholders. This reframing aims to overcome fundamental limitations of existing interfaces, paving the way for more efficient, reliable, and transparent web agent design, which will be a collaborative effort involving the broader ML community.
- Abstract(参考訳): 大規模言語モデル(LLM)とマルチモーダルモデルの最近の進歩は、Web環境内のタスクを自律的にナビゲートし完了させることができるAIシステムであるWebエージェントの開発に大きな関心を惹き付けている。
複雑なWebインタラクションを自動化するという大きな約束を掲げながら、現在のアプローチは、人間設計のインターフェースとLLM機能との根本的なミスマッチのため、重大な課題に直面しています。
現在のメソッドは、巨大なDOMツリーの処理、追加情報で強化されたスクリーンショットへの依存、あるいはAPIインタラクションを通じてユーザインターフェースを完全にバイパスするといった、Webインプットの本質的な複雑さに苦慮している。
本稿では,Webエージェント研究におけるパラダイムシフトを提唱する。人間用に設計されたインタフェースにWebエージェントを適応させるのではなく,エージェント機能に特化して最適化された新たなインタラクションパラダイムを開発する必要がある。
この目的のために,エージェントがWebサイトをナビゲートするためのインターフェースであるAWI(Agentic Web Interface)の概念を紹介した。
我々は、すべての主要利害関係者の利益を考慮し、安全、効率、標準化を強調し、AWI設計の6つの指針を確立します。
このリフレーミングは、既存のインターフェースの基本的な制限を克服し、より効率的で信頼性が高く透明なWebエージェント設計の道を開くことを目的としている。
関連論文リスト
- Collaborative Agentic AI Needs Interoperability Across Ecosystems [11.54191443859979]
協力的エージェントAIは、AIによって駆動されるエージェントがデジタル環境内で自律的に知覚し、計画し、行動できるようにすることによって、業界全体を変革する。
この分野の現在のソリューションはすべて独立して構築されており、断片化された非互換なエコシステムの風景に向かっています。
最小限の標準の採用によって達成される相互運用性は、オープンでセキュアで、Webスケールで、広く採用されているエージェントエコシステムを保証するために不可欠である、と私たちは主張する。
論文 参考訳(メタデータ) (2025-05-25T14:25:08Z) - Internet of Agents: Fundamentals, Applications, and Challenges [66.44234034282421]
異種エージェント間のシームレスな相互接続、動的発見、協調的なオーケストレーションを可能にする基盤となるフレームワークとして、エージェントのインターネット(IoA)を紹介した。
我々は,機能通知と発見,適応通信プロトコル,動的タスクマッチング,コンセンサスとコンフリクト解決機構,インセンティブモデルなど,IoAの重要な運用イネーラを分析した。
論文 参考訳(メタデータ) (2025-05-12T02:04:37Z) - PAFFA: Premeditated Actions For Fast Agents [19.576180667174366]
PAFFAは、新しい推論時間手法を用いて、インターネット上でのタスクの完了を高速かつ正確にする手法である。
PAFFAは、堅牢なパフォーマンスを維持しながら、推論時間トークンを87%大幅に削減する。
調査に基づいてアクションライブラリを更新するUnravelの能力は、目に見えないウェブサイトへの一般化と適応を可能にする。
論文 参考訳(メタデータ) (2024-12-10T22:51:31Z) - Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence [79.5316642687565]
既存のマルチエージェントフレームワークは、多種多様なサードパーティエージェントの統合に苦慮することが多い。
我々はこれらの制限に対処する新しいフレームワークであるInternet of Agents (IoA)を提案する。
IoAはエージェント統合プロトコル、インスタントメッセージのようなアーキテクチャ設計、エージェントのチーム化と会話フロー制御のための動的メカニズムを導入している。
論文 参考訳(メタデータ) (2024-07-09T17:33:24Z) - WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models [65.18602126334716]
既存のWebエージェントは1つの入力モダリティしか処理せず、単純化されたWebシミュレータや静的なWebスナップショットでのみ評価される。
我々は,WebVoyagerを紹介した。LMM(Large Multimodal Model)を利用したWebエージェントで,現実世界のWebサイトと対話することで,エンド・ツー・エンドでのユーザ指示を完了することができる。
GPT-4(All Tools)とWebVoyager(text-only)の両方のパフォーマンスを大幅に上回る、59.1%のタスク成功率を実現していることを示す。
論文 参考訳(メタデータ) (2024-01-25T03:33:18Z) - Signifiers as a First-class Abstraction in Hypermedia Multi-Agent
Systems [0.6595290783361959]
我々は、Webベースのマルチエージェントシステムにおいて、シグニケータを第一級の抽象化として導入するために、Affordance TheoryとHuman-Computer Interactionの概念と方法を構築した。
我々は,情報利用の促進を目的とした,ハイパーメディア環境におけるシグニチャの文脈曝露に関する形式モデルを定義した。
論文 参考訳(メタデータ) (2023-02-14T10:54:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。