論文の概要: PAFFA: Premeditated Actions For Fast Agents
- arxiv url: http://arxiv.org/abs/2412.07958v1
- Date: Tue, 10 Dec 2024 22:51:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:02:42.279242
- Title: PAFFA: Premeditated Actions For Fast Agents
- Title(参考訳): PAFFA: 高速エージェントのための準備されたアクション
- Authors: Shambhavi Krishna, Zheng Chen, Vaibhav Kumar, Xiaojiang Huang, Yingjie Li, Fan Yang, Xiang Li,
- Abstract要約: PAFFAは、再利用可能な、検証済みのブラウザインタラクション関数のAction API Libraryを通じて、Webインタラクション機能を強化するように設計されたフレームワークである。
Webサイト構造が進化しても、堅牢なパフォーマンスを維持しながら、推論コールを87%削減する。
このフレームワークはマルチページタスクの実行を加速し、自律的なWebエージェントの研究を進めるためのスケーラブルなソリューションを提供する。
- 参考スコア(独自算出の注目度): 23.363582411971567
- License:
- Abstract: Modern AI assistants have made significant progress in natural language understanding and API/tool integration, with emerging efforts to incorporate diverse interfaces (such as Web interfaces) for enhanced scalability and functionality. However, current approaches that heavily rely on repeated LLM-driven HTML parsing are computationally expensive and error-prone, particularly when handling dynamic web interfaces and multi-step tasks. To overcome these challenges, we introduce PAFFA (Premeditated Actions For Fast Agents), a framework designed to enhance web interaction capabilities through an Action API Library of reusable, verified browser interaction functions. By pre-computing interaction patterns and employing two core methodologies - "Dist-Map" for task-agnostic element distillation and "Unravel" for incremental page-wise exploration - PAFFA reduces inference calls by 87% while maintaining robust performance even as website structures evolve. This framework accelerates multi-page task execution and offers a scalable solution to advance autonomous web agent research.
- Abstract(参考訳): 現代のAIアシスタントは、拡張されたスケーラビリティと機能のために、さまざまなインターフェース(Webインターフェースなど)を統合する新たな取り組みによって、自然言語理解とAPI/ツール統合において大きな進歩を遂げている。
しかし、LLM駆動のHTMLパースに強く依存する現在のアプローチは、特に動的Webインターフェースやマルチステップタスクを扱う場合、計算コストが高く、エラーが発生しやすい。
PAFFA(Premeditated Actions for Fast Agents)は,再利用可能なブラウザインタラクション機能を備えたAction APIライブラリを通じて,Webインタラクション機能を強化するためのフレームワークである。
インタラクションパターンを事前計算し、タスクに依存しない要素の蒸留に"Dist-Map"、ページ単位の漸進的な探索に"Unravel"という2つのコア方法論を採用することで、PAFFAはWebサイト構造が進化しても堅牢なパフォーマンスを維持しながら、推論呼び出しを87%削減する。
このフレームワークはマルチページタスクの実行を加速し、自律的なWebエージェントの研究を進めるためのスケーラブルなソリューションを提供する。
関連論文リスト
- R2D2: Remembering, Reflecting and Dynamic Decision Making for Web Agents [53.94879482534949]
現在のモデルは、Web構造の可視化と理解が限られているため、効率的なナビゲーションとアクション実行に苦しむことが多い。
提案したR2D2フレームワークは,2つのパラダイムを統合することで,これらの課題に対処する。
本研究は,記憶を増強したナビゲーションと反射学習を組み合わせることで,Webエージェントの能力が向上することが示唆された。
論文 参考訳(メタデータ) (2025-01-21T20:21:58Z) - Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks [85.48034185086169]
Mobile-Agent-Eは、過去の経験を通じて自己進化できる階層的なマルチエージェントフレームワークである。
Mobile-Agent-Eは従来の最先端アプローチよりも22%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2025-01-20T20:35:46Z) - Interaction2Code: Benchmarking MLLM-based Interactive Webpage Code Generation from Interactive Prototyping [57.024913536420264]
MLLM(Multimodal Large Language Models)は、設計からコードへのタスクにおいて顕著な性能を示す。
本稿では,インタラクティブなWebページを生成する上で,MLLMを初めて体系的に研究する。
論文 参考訳(メタデータ) (2024-11-05T17:40:03Z) - Beyond Browsing: API-Based Web Agents [58.39129004543844]
APIベースのエージェントはWebArenaの実験でWebブラウジングエージェントを上回っている。
ハイブリッドエージェント(Hybrid Agents)は、タスク全体にわたって、ほぼ均一にパフォーマンスを向上する。
結果から,APIが利用可能であれば,Webブラウジングのみに依存するという,魅力的な代替手段が提示されることが強く示唆された。
論文 参考訳(メタデータ) (2024-10-21T19:46:06Z) - Steward: Natural Language Web Automation [19.301371856154965]
大規模言語モデル(LLM)は、AIアシスタントの基盤として機能する優れた能力を示している。
我々は、低コストでスケーラブルでエンドツーエンドなWebインタラクション自動化ソリューションとして機能するように設計された、新しいLLMベースのWeb自動化ツールであるStewardを紹介します。
本稿では,状態表現,アクションシーケンス選択,システム応答性,タスク完了の検出,キャッシュ実装など,さまざまな設計と実装の課題について論じる。
論文 参考訳(メタデータ) (2024-09-23T18:06:32Z) - AppAgent v2: Advanced Agent for Flexible Mobile Interactions [46.789563920416626]
本研究は,モバイル機器向けの新しいLLMベースのマルチモーダルエージェントフレームワークを提案する。
我々のエージェントは、様々なアプリケーションにまたがる適応性を高めるフレキシブルなアクション空間を構築する。
本研究は,実世界のシナリオにおいて,フレームワークの優れた性能を実証し,その有効性を確認した。
論文 参考訳(メタデータ) (2024-08-05T06:31:39Z) - Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence [79.5316642687565]
既存のマルチエージェントフレームワークは、多種多様なサードパーティエージェントの統合に苦慮することが多い。
我々はこれらの制限に対処する新しいフレームワークであるInternet of Agents (IoA)を提案する。
IoAはエージェント統合プロトコル、インスタントメッセージのようなアーキテクチャ設計、エージェントのチーム化と会話フロー制御のための動的メカニズムを導入している。
論文 参考訳(メタデータ) (2024-07-09T17:33:24Z) - On the Multi-turn Instruction Following for Conversational Web Agents [83.51251174629084]
本稿では,ユーザと環境の両方で複数回にまたがる高度なインタラクションを必要とする,対話型Webナビゲーションの新たなタスクを紹介する。
本稿では,メモリ利用と自己回帰技術を用いた自己反射型メモリ拡張計画(Self-MAP)を提案する。
論文 参考訳(メタデータ) (2024-02-23T02:18:12Z) - You Only Look at Screens: Multimodal Chain-of-Action Agents [37.118034745972956]
Auto-GUIは、インターフェースと直接対話するマルチモーダルソリューションである。
そこで本研究では,エージェントが実行すべきアクションを決定するためのチェーン・オブ・アクション手法を提案する。
我々は,30$Kのユニークな命令を持つ新しいデバイス制御ベンチマークAITWに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-09-20T16:12:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。