論文の概要: The Synergy of Automated Pipelines with Prompt Engineering and Generative AI in Web Crawling
- arxiv url: http://arxiv.org/abs/2502.15691v1
- Date: Sun, 29 Dec 2024 17:27:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-16 22:53:28.741664
- Title: The Synergy of Automated Pipelines with Prompt Engineering and Generative AI in Web Crawling
- Title(参考訳): Webクローリングにおけるプロンプトエンジニアリングと生成AIによる自動パイプラインの相乗効果
- Authors: Chau-Jian Huang,
- Abstract要約: 本研究では,生成型AIツールClaude AI(Sonnet)とChatGPT4.0を統合することにより,Webスクレイピングを自動化する。
クロードAIは一貫してChatGPT-4.0のスクリプト品質と適応性に優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Web crawling is a critical technique for extracting online data, yet it poses challenges due to webpage diversity and anti-scraping mechanisms. This study investigates the integration of generative AI tools Claude AI (Sonnet 3.5) and ChatGPT4.0 with prompt engineering to automate web scraping. Using two prompts, PROMPT I (general inference, tested on Yahoo News) and PROMPT II (element-specific, tested on Coupons.com), we evaluate the code quality and performance of AI-generated scripts. Claude AI consistently outperformed ChatGPT-4.0 in script quality and adaptability, as confirmed by predefined evaluation metrics, including functionality, readability, modularity, and robustness. Performance data were collected through manual testing and structured scoring by three evaluators. Visualizations further illustrate Claude AI's superiority. Anti-scraping solutions, including undetected_chromedriver, Selenium, and fake_useragent, were incorporated to enhance performance. This paper demonstrates how generative AI combined with prompt engineering can simplify and improve web scraping workflows.
- Abstract(参考訳): ウェブクローリングはオンラインデータを抽出する上で重要な手法であるが、Webページの多様性とアンチスクレイピング機構によって困難が生じる。
本研究では,生成型AIツールClaude AI(Sonnet 3.5)とChatGPT4.0を統合することにより,Webスクレイピングを自動化する。
ProMPT I (General Inference, test on Yahoo News) と PROMPT II ( Element-specific, test on Coupons.com) の2つのプロンプトを用いて,AI生成スクリプトのコード品質と性能を評価する。
クロードAIは、機能、可読性、モジュール性、堅牢性など、事前に定義された評価指標によって確認されたように、ChatGPT-4.0のスクリプト品質と適応性は一貫して向上した。
パフォーマンスデータは手動テストと3つの評価器による構造化スコアによって収集された。
可視化はさらに、Claude AIの優位性を示している。
検出不能な_chromedriver, Selenium, fake_useragentなどのアンチスクレイピングソリューションが組み込まれ, 性能が向上した。
本稿では,ジェネレーティブAIと迅速なエンジニアリングを組み合わせることで,Webスクレイピングワークフローを簡素化し,改善する方法について述べる。
関連論文リスト
- AI2Agent: An End-to-End Framework for Deploying AI Projects as Autonomous Agents [15.802600809497097]
本稿では、ガイドライン駆動実行を通じてAIプロジェクトのデプロイメントを自動化するエンドツーエンドフレームワークであるAI2Agentを紹介する。
我々は、TTS、テキスト・ツー・イメージ生成、画像編集、その他のAIアプリケーションをカバーする、30のAIデプロイメントケースの実験を行った。
その結果、AI2Agentはデプロイメント時間を大幅に短縮し、成功率を向上させることがわかった。
論文 参考訳(メタデータ) (2025-03-31T10:58:34Z) - AIDetection: A Generative AI Detection Tool for Educators Using Syntactic Matching of Common ASCII Characters As Potential 'AI Traces' Within Users' Internet Browser [0.0]
AIDetection.infoは、ジェネレーティブAIモデルによって残された共通トレースを識別するために、構文に基づくアプローチを採用している。
このツールは、ドキュメントをスキャンして、潜在的なAIアーティファクト、AI引用と承認をスキャンし、ダウンロード可能なExcelとCSVレポートによる視覚的な要約を提供する。
論文 参考訳(メタデータ) (2025-03-12T15:53:58Z) - General Scales Unlock AI Evaluation with Explanatory and Predictive Power [57.7995945974989]
ベンチマークはAIの進歩を導くものだが、汎用AIシステムには限られた説明力と予測力を提供している。
私たちは、一般的なAIベンチマークが実際に何を計測しているかを説明することができる、AI評価のための一般的な尺度を紹介します。
私たちの完全に自動化された方法論は、飽和しない一般的なスケールにインスタンス要求を配置する18の新しく作られたルーリックの上に構築されます。
論文 参考訳(メタデータ) (2025-03-09T01:13:56Z) - WebGames: Challenging General-Purpose Web-Browsing AI Agents [11.320069795732058]
WebGamesは汎用的なWebブラウザAIエージェントを評価するために設計された包括的なベンチマークスイートである。
GPT-4o, Claude Computer-Use, Gemini-1.5-Pro, Qwen2-VLなどの視覚言語モデルを人為的性能に対して評価した。
その結果、最高のAIシステムは、人間のパフォーマンスが95.7%であるのに対して、43.1%の成功率しか達成していない。
論文 参考訳(メタデータ) (2025-02-25T16:45:08Z) - AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials [53.376263056033046]
既存のアプローチは高価な人間のアノテーションに依存しており、大規模には持続不可能である。
本稿では,Webエージェントトラジェクトリを生成するスケーラブルなデータ合成パイプラインであるAgentTrekを提案する。
完全に自動化されたアプローチは、データ収集コストを大幅に削減し、人間のアノテータを使わずに、高品質な軌道を0.55ドルに抑えることができます。
論文 参考訳(メタデータ) (2024-12-12T18:59:27Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - Adaptation of XAI to Auto-tuning for Numerical Libraries [0.0]
説明可能なAI(XAI)技術は、AIモデル開発の合理化と、ユーザへのAI出力の説明の負担軽減を目的として、注目を集めている。
本研究は,2つの異なるプロセスに統合されたAIモデルのXAIに着目し,数値計算を行う。
論文 参考訳(メタデータ) (2024-05-12T09:00:56Z) - RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z) - A Preliminary Study on Using Large Language Models in Software
Pentesting [2.0551676463612636]
大規模言語モデル(LLM)は、セキュリティタスクを自動化するための有望な可能性を提供すると考えられている。
ソフトウェアペンテスティングにおけるLLMの使用について検討し,ソースコード中のソフトウェアセキュリティ脆弱性を自動的に識別する作業を行う。
論文 参考訳(メタデータ) (2024-01-30T21:42:59Z) - AI Content Self-Detection for Transformer-based Large Language Models [0.0]
本稿では、直接起点検出の概念を導入し、生成型AIシステムが出力を認識し、人文テキストと区別できるかどうかを評価する。
GoogleのBardモデルは、精度94%の自己検出の最大の能力を示し、OpenAIのChatGPTは83%である。
論文 参考訳(メタデータ) (2023-12-28T10:08:57Z) - A Real-World WebAgent with Planning, Long Context Understanding, and
Program Synthesis [69.15016747150868]
本稿では,WebAgentについて紹介する。WebAgentは自己経験から学習し,実際のWebサイト上でタスクを完了させるエージェントである。
WebAgentは、指示を標準のサブ命令に分解し、長いHTMLドキュメントをタスク関連スニペットに要約し、ウェブサイトで作用する計画である。
我々は、我々のモジュラーレシピが実際のWebサイトの成功を50%以上改善し、HTML-T5が様々なHTML理解タスクを解決する最良のモデルであることを実証的に実証した。
論文 参考訳(メタデータ) (2023-07-24T14:56:30Z) - Comparing Software Developers with ChatGPT: An Empirical Investigation [0.0]
本稿では,ChatGPTのようなソフトウェア技術者やAIシステムのパフォーマンスを,さまざまな評価指標で比較した実証的研究を行う。
この論文は、さまざまな評価基準を考慮して、ソフトウェアエンジニアとAIベースのソリューションの包括的な比較が、人間と機械のコラボレーションを促進する上で重要であることを示唆している。
論文 参考訳(メタデータ) (2023-05-19T17:25:54Z) - AutoML-GPT: Automatic Machine Learning with GPT [74.30699827690596]
本稿では,タスク指向のプロンプトを開発し,大規模言語モデル(LLM)を自動的に活用して学習パイプラインを自動化することを提案する。
本稿では,多様なAIモデルのブリッジとしてGPTを用いたAutoML-GPTを提案する。
このアプローチはコンピュータビジョン、自然言語処理、その他の課題領域において顕著な結果をもたらす。
論文 参考訳(メタデータ) (2023-05-04T02:09:43Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。