論文の概要: MCP vs RAG vs NLWeb vs HTML: A Comparison of the Effectiveness and Efficiency of Different Agent Interfaces to the Web (Technical Report)
- arxiv url: http://arxiv.org/abs/2511.23281v1
- Date: Fri, 28 Nov 2025 15:32:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.965268
- Title: MCP vs RAG vs NLWeb vs HTML: A Comparison of the Effectiveness and Efficiency of Different Agent Interfaces to the Web (Technical Report)
- Title(参考訳): MCP対RAG対NLWeb対HTML:異なるエージェントインタフェースの有効性と効果の比較(技術報告)
- Authors: Aaron Steiner, Ralph Peeters, Christian Bizer,
- Abstract要約: 我々は,HTML,MPP,NLWebの4つのe-shopsを模擬したテストベッドを紹介した。
各インターフェース (HTML, RAG, MCP, NLWeb) に対して,同じタスクセットを実行する特殊なエージェントを開発する。
GPT 4.1, GPT 5, GPT 5 mini, Claude Sonnet 4 を基礎となる LLM として評価した。
- 参考スコア(独自算出の注目度): 3.1427994341585688
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model agents are increasingly used to automate web tasks such as product search, offer comparison, and checkout. Current research explores different interfaces through which these agents interact with websites, including traditional HTML browsing, retrieval-augmented generation (RAG) over pre-crawled content, communication via Web APIs using the Model Context Protocol (MCP), and natural-language querying through the NLWeb interface. However, no prior work has compared these four architectures within a single controlled environment using identical tasks. To address this gap, we introduce a testbed consisting of four simulated e-shops, each offering its products via HTML, MCP, and NLWeb interfaces. For each interface (HTML, RAG, MCP, and NLWeb) we develop specialized agents that perform the same sets of tasks, ranging from simple product searches and price comparisons to complex queries for complementary or substitute products and checkout processes. We evaluate the agents using GPT 4.1, GPT 5, GPT 5 mini, and Claude Sonnet 4 as underlying LLM. Our evaluation shows that the RAG, MCP and NLWeb agents outperform HTML on both effectiveness and efficiency. Averaged over all tasks, F1 rises from 0.67 for HTML to between 0.75 and 0.77 for the other agents. Token usage falls from about 241k for HTML to between 47k and 140k per task. The runtime per task drops from 291 seconds to between 50 and 62 seconds. The best overall configuration is RAG with GPT 5 achieving an F1 score of 0.87 and a completion rate of 0.79. Also taking cost into consideration, RAG with GPT 5 mini offers a good compromise between API usage fees and performance. Our experiments show the choice of the interaction interface has a substantial impact on both the effectiveness and efficiency of LLM-based web agents.
- Abstract(参考訳): 大規模な言語モデルエージェントは、製品検索、比較提供、チェックアウトなどのWebタスクを自動化するために、ますます使われています。
現在、これらのエージェントがWebサイトと対話するさまざまなインターフェースについて検討している。例えば、従来のHTMLブラウジング、事前クロールされたコンテンツに対する検索拡張生成(RAG)、モデルコンテキストプロトコル(MCP)を用いたWeb API経由の通信、NLWebインターフェースによる自然言語クエリなどがある。
しかしながら、これらの4つのアーキテクチャを同一のタスクを使用して単一の制御環境で比較する以前の研究はない。
このギャップに対処するため、我々は4つの模擬e-shopsからなるテストベッドを導入し、それぞれがHTML、MPP、NLWebインターフェースを介して製品を提供する。
それぞれのインターフェース (HTML, RAG, MCP, NLWeb) に対して, 単純な製品検索や価格比較から, 補完的な製品や代替品の複雑なクエリ, チェックアウトプロセスまで, 同じタスクセットを実行する特殊なエージェントを開発する。
GPT 4.1, GPT 5, GPT 5 mini, Claude Sonnet 4 を基礎となる LLM として評価した。
評価の結果, RAG, MCP, NLWeb エージェントは, 有効性と効率において HTML よりも優れていた。
平均して、F1はHTMLの0.67から他のエージェントの0.75から0.77まで上昇する。
トークンの使用量は、HTMLの約241kからタスク毎の47kから140kに減少する。
タスク毎のランタイムは291秒から50から62秒の間になる。
最も優れた構成はRAGで、GPT 5はF1スコア0.87、完成率は0.79である。
また、GAT 5 miniによるRAGは、API使用料とパフォーマンスの良好な妥協を提供する。
実験の結果, インタラクションインタフェースの選択は, LLM ベースの Web エージェントの有効性と効率に大きく影響していることがわかった。
関連論文リスト
- Web-Shepherd: Advancing PRMs for Reinforcing Web Agents [12.928605558358464]
ステップレベルのWebナビゲーショントラジェクトリを評価するために,Web-Shepherdと呼ばれる最初のプロセス報酬モデル(PRM)を提案する。
実験では,WebRewardBenchでGPT-4oを使用する場合と比較して,Web-Shepherdの精度は約30ポイント向上した。
論文 参考訳(メタデータ) (2025-05-21T08:56:55Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - Interaction2Code: Benchmarking MLLM-based Interactive Webpage Code Generation from Interactive Prototyping [57.024913536420264]
MLLM(Multimodal Large Language Models)は、設計からコードへのタスクにおいて顕著な性能を示す。
本稿では,インタラクティブなWebページを生成する上で,MLLMを初めて体系的に研究する。
論文 参考訳(メタデータ) (2024-11-05T17:40:03Z) - Beyond Browsing: API-Based Web Agents [58.39129004543844]
APIベースのエージェントはWebArenaの実験でWebブラウザエージェントを上回っている。
ハイブリッドエージェント(Hybrid Agents)は、タスク全体にわたって、ほぼ均一にパフォーマンスを向上する。
結果から,APIが利用可能であれば,Webブラウジングのみに依存するという,魅力的な代替手段が提示されることが強く示唆された。
論文 参考訳(メタデータ) (2024-10-21T19:46:06Z) - Tree Search for Language Model Agents [73.97960454223164]
対話型Web環境での探索と多段階計画を行うために,LMエージェントの推論時探索アルゴリズムを提案する。
我々のアプローチは、実環境空間内で機能する最優先木探索の一形態である。
現実的なWebタスクにおいて有効性を示すLMエージェントのための最初の木探索アルゴリズムである。
論文 参考訳(メタデータ) (2024-07-01T17:07:55Z) - $τ$-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains [43.43344028212623]
$tau$-benchは、ユーザと言語エージェント間の動的会話をエミュレートするベンチマークである。
我々は、会話の最後にデータベースの状態と注釈付きゴール状態を比較する、効率的で忠実な評価プロセスを採用する。
論文 参考訳(メタデータ) (2024-06-17T19:33:08Z) - AutoScraper: A Progressive Understanding Web Agent for Web Scraper Generation [54.17246674188208]
Webスクレイピングは、Webサイトからデータを抽出し、自動データ収集を可能にし、データ分析機能を強化し、手動のデータ入力作業を最小化する強力なテクニックである。
既存の手法では、ラッパーベースの手法は、新しいウェブサイトで直面する場合、適応性とスケーラビリティの制限に悩まされる。
本稿では,大規模言語モデル(LLM)を用いたWebスクレイパー生成のパラダイムを紹介し,多様なWeb環境をより効率的に処理できる2段階フレームワークであるAutoScraperを提案する。
論文 参考訳(メタデータ) (2024-04-19T09:59:44Z) - AllTogether: Investigating the Efficacy of Spliced Prompt for Web
Navigation using Large Language Models [2.234037966956278]
タスクコンテキスト表現を強化する標準化されたプロンプトテンプレートであるAllTogetherを紹介する。
我々は,オープンソースのLlama-2とAPIアクセス可能なGPTモデルに基づいて,素早い学習と指導の微調整により,このアプローチの有効性を評価する。
論文 参考訳(メタデータ) (2023-10-20T11:10:14Z) - A Real-World WebAgent with Planning, Long Context Understanding, and
Program Synthesis [69.15016747150868]
本稿では,WebAgentについて紹介する。WebAgentは自己経験から学習し,実際のWebサイト上でタスクを完了させるエージェントである。
WebAgentは、指示を標準のサブ命令に分解し、長いHTMLドキュメントをタスク関連スニペットに要約し、ウェブサイトで作用する計画である。
我々は、我々のモジュラーレシピが実際のWebサイトの成功を50%以上改善し、HTML-T5が様々なHTML理解タスクを解決する最良のモデルであることを実証的に実証した。
論文 参考訳(メタデータ) (2023-07-24T14:56:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。