論文の概要: BrowserAgent: Building Web Agents with Human-Inspired Web Browsing Actions
- arxiv url: http://arxiv.org/abs/2510.10666v2
- Date: Tue, 14 Oct 2025 08:54:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 14:23:56.907859
- Title: BrowserAgent: Building Web Agents with Human-Inspired Web Browsing Actions
- Title(参考訳): BrowserAgent: ヒューマンインスパイアされたWebブラウジングアクションでWebエージェントを構築する
- Authors: Tao Yu, Zhengbo Zhang, Zhiheng Lyu, Junhao Gong, Hongzhu Yi, Xinming Wang, Yuxuan Zhou, Jiabing Yang, Ping Nie, Yan Huang, Wenhu Chen,
- Abstract要約: BrowserAgentは、事前に定義されたブラウザアクションのセットを通じて、Playwright経由で生のWebページで直接動作する。
ステップ間で重要な結論を格納するための明示的なメモリ機構を導入し、モデルの推論能力をさらに強化する。
- 参考スコア(独自算出の注目度): 48.194688161526756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficiently solving real-world problems with LLMs increasingly hinges on their ability to interact with dynamic web environments and autonomously acquire external information. While recent research like Search-R1 and WebDancer demonstrates strong performance in solving web tasks, they heavily rely on additional tools to convert the interactive web environment into static text content. This is in contrast to human browsing behaviors, which involve diverse interactions with the browser, such as scrolling, clicking, and typing. In this paper, we propose BrowserAgent, a more interactive agent that solves complex tasks through human-inspired browser actions. BrowserAgent operates directly on raw web pages via Playwright through a set of predefined browser actions. We adopt a two-stage training (Supervised Fine-Tuning (SFT) and Rejection Fine-Tuning (RFT)) to improve the model's generalization abilities. Despite using significantly less training data than Search-R1, BrowserAgent achieves more competitive results across different Open-QA tasks. Additionally, we introduce an explicit memory mechanism to store key conclusions across steps, further enhancing the model's reasoning capabilities for long-horizon tasks. Notably, BrowserAgent-7B can achieve around 20\% improvement over Search-R1 on multi-hop QA tasks like HotpotQA, 2Wiki, and Bamboogle. These results indicate that BrowserAgent can serve as a more advanced framework for more interactive and scalable web agents.
- Abstract(参考訳): LLMによる現実世界の問題解決は、動的Web環境と対話し、外部情報を自律的に取得する能力にますます依存している。
Search-R1やWebDancerといった最近の研究は、Webタスクの解決における強力なパフォーマンスを示しているが、インタラクティブなWeb環境を静的なテキストコンテンツに変換するツールに大きく依存している。
これは、スクロール、クリック、タイピングなど、ブラウザとの多様なインタラクションを含む人間のブラウジング動作とは対照的である。
本稿では,よりインタラクティブなエージェントであるBrowserAgentを提案する。
BrowserAgentは、事前に定義されたブラウザアクションのセットを通じて、Playwright経由で生のWebページで直接動作する。
我々は,モデルの一般化能力を向上させるために,2段階のトレーニング(SFT(Supervised Fine-Tuning)とRFT(Rejection Fine-Tuning))を採用する。
Search-R1よりもトレーニングデータが少ないにもかかわらず、BrowserAgentは異なるOpen-QAタスク間でより競争力のある結果を得る。
さらに、ステップ間で重要な結論を格納するための明示的なメモリ機構を導入し、長い水平タスクに対するモデルの推論能力をさらに強化する。
特に、BrowserAgent-7Bは、HotpotQA、2Wiki、BamboogleといったマルチホップQAタスクにおいて、Search-R1よりも約20%改善できる。
これらの結果は、よりインタラクティブでスケーラブルなWebエージェントのための、より高度なフレームワークとして、BrowserAgentが機能することを示している。
関連論文リスト
- WALT: Web Agents that Learn Tools [66.73502484310121]
WALTは、Webサイト機能を再利用不能なツールにリバースエンジニアリングするフレームワークである。
WALTはアドホックなスキルを仮説化するのではなく、既にウェブサイトに設計されている自動化の堅牢な実装を公開している。
VisualWebArenaとWebArenaでは、WALTはより少ないステップとLLM依存の推論でより高い成功を達成している。
論文 参考訳(メタデータ) (2025-10-01T23:41:47Z) - WebRollback: Enhancing Web Agents with Explicit Rollback Mechanisms [52.942566473658054]
我々は、明示的なロールバック機構でWebエージェントを強化し、エージェントがナビゲーションの軌跡の前の状態に戻れるようにした。
このメカニズムは、モデルに検索プロセスを直接制御する柔軟性を与え、効果的で効率的なWebナビゲーション方法をもたらす。
論文 参考訳(メタデータ) (2025-04-16T05:41:20Z) - PAFFA: Premeditated Actions For Fast Agents [19.576180667174366]
PAFFAは、新しい推論時間手法を用いて、インターネット上でのタスクの完了を高速かつ正確にする手法である。
PAFFAは、堅牢なパフォーマンスを維持しながら、推論時間トークンを87%大幅に削減する。
調査に基づいてアクションライブラリを更新するUnravelの能力は、目に見えないウェブサイトへの一般化と適応を可能にする。
論文 参考訳(メタデータ) (2024-12-10T22:51:31Z) - Beyond Browsing: API-Based Web Agents [58.39129004543844]
APIベースのエージェントはWebArenaの実験でWebブラウザエージェントを上回っている。
ハイブリッドエージェント(Hybrid Agents)は、タスク全体にわたって、ほぼ均一にパフォーマンスを向上する。
結果から,APIが利用可能であれば,Webブラウジングのみに依存するという,魅力的な代替手段が提示されることが強く示唆された。
論文 参考訳(メタデータ) (2024-10-21T19:46:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。