論文の概要: XPath Agent: An Efficient XPath Programming Agent Based on LLM for Web Crawler
- arxiv url: http://arxiv.org/abs/2502.15688v1
- Date: Tue, 17 Dec 2024 11:36:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-02 07:19:00.421099
- Title: XPath Agent: An Efficient XPath Programming Agent Based on LLM for Web Crawler
- Title(参考訳): XPath Agent: Webクローラ用LLMに基づく効率的なXPathプログラミングエージェント
- Authors: Yu Li, Bryce Wang, Xinyu Luan,
- Abstract要約: Agentは、WebクローリングとWebテスト用に特別に設計された、プロダクション対応のプログラミングエージェントである。
Agentの重要な機能は、単一の自然言語クエリを使用して、サンプルされたWebページのセットからクエリを自動的に生成する機能である。
- 参考スコア(独自算出の注目度): 11.53729666216798
- License:
- Abstract: We present XPath Agent, a production-ready XPath programming agent specifically designed for web crawling and web GUI testing. A key feature of XPath Agent is its ability to automatically generate XPath queries from a set of sampled web pages using a single natural language query. To demonstrate its effectiveness, we benchmark XPath Agent against a state-of-the-art XPath programming agent across a range of web crawling tasks. Our results show that XPath Agent achieves comparable performance metrics while significantly reducing token usage and improving clock-time efficiency. The well-designed two-stage pipeline allows for seamless integration into existing web crawling or web GUI testing workflows, thereby saving time and effort in manual XPath query development. The source code for XPath Agent is available at https://github.com/eavae/feilian.
- Abstract(参考訳): 本稿では,WebクローリングとWeb GUIテスト用に設計されたXPathプログラムエージェントであるXPath Agentを紹介する。
XPath Agentの重要な機能は、単一の自然言語クエリを使用して、サンプルWebページのセットからXPathクエリを自動的に生成する機能である。
提案手法の有効性を示すため,各種Webクローリングタスクにおいて,XPathエージェントを最先端のXPathプログラミングエージェントと比較した。
以上の結果から,XPath Agentはトークン使用量を大幅に削減し,クロック時間効率を向上しながら,同等のパフォーマンス指標を実現していることがわかった。
よく設計された2段階パイプラインにより、既存のWebクローリングやWeb GUIテストワークフローへのシームレスな統合が可能になり、手動XPathクエリ開発における時間と労力を節約できる。
XPath Agentのソースコードはhttps://github.com/eavae/feilian.comで公開されている。
関連論文リスト
- WebWalker: Benchmarking LLMs in Web Traversal [64.48425443951749]
WebWalkerQAは,LLMがWebトラバースを実現する能力を評価するためのベンチマークである。
本稿では,WebWalkerを提案する。WebWalkerは,探索的・批判的パラダイムを通じて,人間のようなWebナビゲーションを模倣するマルチエージェントフレームワークである。
論文 参考訳(メタデータ) (2025-01-13T18:58:07Z) - Beyond Browsing: API-Based Web Agents [58.39129004543844]
APIベースのエージェントはWebArenaの実験でWebブラウジングエージェントを上回っている。
ハイブリッドエージェント(Hybrid Agents)は、タスク全体にわたって、ほぼ均一にパフォーマンスを向上する。
結果から,APIが利用可能であれば,Webブラウジングのみに依存するという,魅力的な代替手段が提示されることが強く示唆された。
論文 参考訳(メタデータ) (2024-10-21T19:46:06Z) - Agent Workflow Memory [71.81385627556398]
本稿では、一般的に再利用されるルーチンを誘導するAgent Memoryを紹介する。
AWMはベースラインの結果を24.6%、相対的な成功率51.1%で大幅に改善する。
オンラインAWMは、クロスタスク、ウェブサイト、ドメイン評価を強力に一般化する。
論文 参考訳(メタデータ) (2024-09-11T17:21:00Z) - Tree Search for Language Model Agents [69.43007235771383]
対話型Web環境での探索と多段階計画を行うために,LMエージェントの推論時探索アルゴリズムを提案する。
我々のアプローチは、実環境空間内で機能する最優先木探索の一形態である。
現実的なWebタスクにおいて有効性を示すLMエージェントのための最初の木探索アルゴリズムである。
論文 参考訳(メタデータ) (2024-07-01T17:07:55Z) - WebSuite: Systematically Evaluating Why Web Agents Fail [2.200477647229223]
我々は、ジェネラリストWebエージェントの最初の診断ベンチマークであるWebSuiteについて説明する。
このベンチマークスイートは、ボタンをクリックするなどの個々のタスクと、カートにアイテムを追加するなどのエンドツーエンドタスクの両方で構成されている。
我々は、テキストベースとマルチモーダルの2つの一般的なジェネラリストWebエージェントを評価し、各エージェントに固有の弱点を特定する。
論文 参考訳(メタデータ) (2024-06-01T00:32:26Z) - AutoScraper: A Progressive Understanding Web Agent for Web Scraper Generation [54.17246674188208]
Webスクレイピングは、Webサイトからデータを抽出し、自動データ収集を可能にし、データ分析機能を強化し、手動のデータ入力作業を最小化する強力なテクニックである。
既存の手法では、ラッパーベースの手法は、新しいウェブサイトで直面する場合、適応性とスケーラビリティの制限に悩まされる。
本稿では,大規模言語モデル(LLM)を用いたWebスクレイパー生成のパラダイムを紹介し,多様なWeb環境をより効率的に処理できる2段階フレームワークであるAutoScraperを提案する。
論文 参考訳(メタデータ) (2024-04-19T09:59:44Z) - AutoWebGLM: A Large Language Model-based Web Navigating Agent [33.55199326570078]
オープンなAutoWebGLMをChatGLM3-6Bに基づいて開発する。
人間のブラウジングパターンにインスパイアされた我々は、まず、Webページを表現するためのHTML単純化アルゴリズムを設計する。
次に,カリキュラム学習のためのWebブラウジングデータを構築するために,ハイブリッドなヒューマンAI手法を用いる。
論文 参考訳(メタデータ) (2024-04-04T17:58:40Z) - Finding XPath Bugs in XML Document Processors via Differential Testing [7.991734012336718]
多くのXMLプロセッサは独自のクエリ言語をサポートしており、XMLドキュメントから要素を抽出できる。
これらのシステムは、プロセッサが誤った結果を返す原因となるバグであるロジックのバグによって影響を受ける可能性がある。
我々は,XPressと呼ばれるシステムとして実現した新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-01-10T12:22:26Z) - Coarse-to-Fine Q-attention with Learned Path Ranking [95.00518278458908]
本稿では,エンドエフェクタのゴールポーズを受け入れる手法であるLearned Path Ranking(LPR)を提案し,目標獲得パスのセットのランク付けを学習する。
16のRLBenchタスクにまたがるアプローチのベンチマークに加えて、実世界のタスク、タブララザも10~15分で3つのデモで学習します。
論文 参考訳(メタデータ) (2022-04-04T15:23:14Z) - Simplified DOM Trees for Transferable Attribute Extraction from the Web [15.728164692696689]
Webページを考えると、構造化されたオブジェクトと関心のあるさまざまな属性の抽出は、さまざまな下流アプリケーションを容易にします。
既存のアプローチは、DOMツリーノードのタグ付けタスクとして問題を定式化する。
本稿では,各ノードの有用なコンテキストを効率的に取得することで,この問題に取り組むための新しい転送可能な手法であるSimpDOMを提案する。
論文 参考訳(メタデータ) (2021-01-07T07:41:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。