論文の概要: The Synergy of Automated Pipelines with Prompt Engineering and Generative AI in Web Crawling
- arxiv url: http://arxiv.org/abs/2502.15691v1
- Date: Sun, 29 Dec 2024 17:27:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-02 06:21:34.640634
- Title: The Synergy of Automated Pipelines with Prompt Engineering and Generative AI in Web Crawling
- Title(参考訳): Webクローリングにおけるプロンプトエンジニアリングと生成AIによる自動パイプラインの相乗効果
- Authors: Chau-Jian Huang,
- Abstract要約: 本研究では,生成型AIツールClaude AI(Sonnet)とChatGPT4.0を統合することにより,Webスクレイピングを自動化する。
クロードAIは一貫してChatGPT-4.0のスクリプト品質と適応性に優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Web crawling is a critical technique for extracting online data, yet it poses challenges due to webpage diversity and anti-scraping mechanisms. This study investigates the integration of generative AI tools Claude AI (Sonnet 3.5) and ChatGPT4.0 with prompt engineering to automate web scraping. Using two prompts, PROMPT I (general inference, tested on Yahoo News) and PROMPT II (element-specific, tested on Coupons.com), we evaluate the code quality and performance of AI-generated scripts. Claude AI consistently outperformed ChatGPT-4.0 in script quality and adaptability, as confirmed by predefined evaluation metrics, including functionality, readability, modularity, and robustness. Performance data were collected through manual testing and structured scoring by three evaluators. Visualizations further illustrate Claude AI's superiority. Anti-scraping solutions, including undetected_chromedriver, Selenium, and fake_useragent, were incorporated to enhance performance. This paper demonstrates how generative AI combined with prompt engineering can simplify and improve web scraping workflows.
- Abstract(参考訳): ウェブクローリングはオンラインデータを抽出する上で重要な手法であるが、Webページの多様性とアンチスクレイピング機構によって困難が生じる。
本研究では,生成型AIツールClaude AI(Sonnet 3.5)とChatGPT4.0を統合することにより,Webスクレイピングを自動化する。
ProMPT I (General Inference, test on Yahoo News) と PROMPT II ( Element-specific, test on Coupons.com) の2つのプロンプトを用いて,AI生成スクリプトのコード品質と性能を評価する。
クロードAIは、機能、可読性、モジュール性、堅牢性など、事前に定義された評価指標によって確認されたように、ChatGPT-4.0のスクリプト品質と適応性は一貫して向上した。
パフォーマンスデータは手動テストと3つの評価器による構造化スコアによって収集された。
可視化はさらに、Claude AIの優位性を示している。
検出不能な_chromedriver, Selenium, fake_useragentなどのアンチスクレイピングソリューションが組み込まれ, 性能が向上した。
本稿では,ジェネレーティブAIと迅速なエンジニアリングを組み合わせることで,Webスクレイピングワークフローを簡素化し,改善する方法について述べる。
関連論文リスト
- Multi-Agent Actor-Critic Generative AI for Query Resolution and Analysis [1.0124625066746598]
本稿では,アクタ批判モデルに基づく問合せ解決のための変換フレームワークであるMASQRADを紹介する。
MASQRADは不正確または曖昧なユーザからの問い合わせを正確で行動可能な要求に翻訳するのに優れている。
MASQRAD は高度なマルチエージェントシステムとして機能するが、単一のAIエンティティとしてユーザに対して "masquerad" を提供する。
論文 参考訳(メタデータ) (2025-02-17T04:03:15Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
大規模なマルチベンチマークWebエージェント実験を初めて実施する。
結果は、OpenAIとAnthropicの最新モデルの大きな相違点を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - Adaptation of XAI to Auto-tuning for Numerical Libraries [0.0]
説明可能なAI(XAI)技術は、AIモデル開発の合理化と、ユーザへのAI出力の説明の負担軽減を目的として、注目を集めている。
本研究は,2つの異なるプロセスに統合されたAIモデルのXAIに着目し,数値計算を行う。
論文 参考訳(メタデータ) (2024-05-12T09:00:56Z) - RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z) - A Preliminary Study on Using Large Language Models in Software
Pentesting [2.0551676463612636]
大規模言語モデル(LLM)は、セキュリティタスクを自動化するための有望な可能性を提供すると考えられている。
ソフトウェアペンテスティングにおけるLLMの使用について検討し,ソースコード中のソフトウェアセキュリティ脆弱性を自動的に識別する作業を行う。
論文 参考訳(メタデータ) (2024-01-30T21:42:59Z) - AI Content Self-Detection for Transformer-based Large Language Models [0.0]
本稿では、直接起点検出の概念を導入し、生成型AIシステムが出力を認識し、人文テキストと区別できるかどうかを評価する。
GoogleのBardモデルは、精度94%の自己検出の最大の能力を示し、OpenAIのChatGPTは83%である。
論文 参考訳(メタデータ) (2023-12-28T10:08:57Z) - A Real-World WebAgent with Planning, Long Context Understanding, and
Program Synthesis [69.15016747150868]
本稿では,WebAgentについて紹介する。WebAgentは自己経験から学習し,実際のWebサイト上でタスクを完了させるエージェントである。
WebAgentは、指示を標準のサブ命令に分解し、長いHTMLドキュメントをタスク関連スニペットに要約し、ウェブサイトで作用する計画である。
我々は、我々のモジュラーレシピが実際のWebサイトの成功を50%以上改善し、HTML-T5が様々なHTML理解タスクを解決する最良のモデルであることを実証的に実証した。
論文 参考訳(メタデータ) (2023-07-24T14:56:30Z) - Comparing Software Developers with ChatGPT: An Empirical Investigation [0.0]
本稿では,ChatGPTのようなソフトウェア技術者やAIシステムのパフォーマンスを,さまざまな評価指標で比較した実証的研究を行う。
この論文は、さまざまな評価基準を考慮して、ソフトウェアエンジニアとAIベースのソリューションの包括的な比較が、人間と機械のコラボレーションを促進する上で重要であることを示唆している。
論文 参考訳(メタデータ) (2023-05-19T17:25:54Z) - AutoML-GPT: Automatic Machine Learning with GPT [74.30699827690596]
本稿では,タスク指向のプロンプトを開発し,大規模言語モデル(LLM)を自動的に活用して学習パイプラインを自動化することを提案する。
本稿では,多様なAIモデルのブリッジとしてGPTを用いたAutoML-GPTを提案する。
このアプローチはコンピュータビジョン、自然言語処理、その他の課題領域において顕著な結果をもたらす。
論文 参考訳(メタデータ) (2023-05-04T02:09:43Z) - A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to
GPT-5 All You Need? [112.12974778019304]
生成AI(AIGC、つまりAI生成コンテンツ)は、テキスト、画像、その他を分析、作成する能力により、あらゆる場所で話題を呼んだ。
純粋な分析から創造へと移行するAIの時代において、ChatGPTは最新の言語モデルであるGPT-4とともに、多くのAIGCタスクからなるツールである。
本研究は,テキスト,画像,ビデオ,3Dコンテンツなど,出力タイプに基づいたAIGCタスクの技術的開発に焦点を当てている。
論文 参考訳(メタデータ) (2023-03-21T10:09:47Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。