論文の概要: Recon-Act: A Self-Evolving Multi-Agent Browser-Use System via Web Reconnaissance, Tool Generation, and Task Execution
- arxiv url: http://arxiv.org/abs/2509.21072v1
- Date: Thu, 25 Sep 2025 12:23:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.896935
- Title: Recon-Act: A Self-Evolving Multi-Agent Browser-Use System via Web Reconnaissance, Tool Generation, and Task Execution
- Title(参考訳): Recon-Act: Web Reconnaissance, Tool Generation, Task Executionによる自己進化型マルチエージェントブラウザ利用システム
- Authors: Kaiwen He, Zhiwei Wang, Chenyi Zhuang, Jinjie Gu,
- Abstract要約: Recon-Actは、Reconnaissance-Actionの行動パラダイムに基づく、自己進化型のマルチエージェントフレームワークである。
システムは偵察チームとアクションチームで構成される。
Recon-Actは、目に見えないWebサイトへの適応性と、長期的なタスクに対する解決可能性を大幅に改善する。
- 参考スコア(独自算出の注目度): 24.71872444088982
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent years, multimodal models have made remarkable strides and pave the way for intelligent browser use agents. However, when solving tasks on real world webpages in multi-turn, long-horizon trajectories, current agents still suffer from disordered action sequencing and excessive trial and error during execution. This paper introduces Recon-Act, a self-evolving multi-agent framework grounded in Reconnaissance-Action behavioral paradigm. The system comprises a Reconnaissance Team and an Action Team: the former conducts comparative analysis and tool generation, while the latter handles intent decomposition, tool orchestration, and execution. By contrasting the erroneous trajectories with successful ones, the Reconnaissance Team infers remedies, and abstracts them into a unified notion of generalized tools, either expressed as hints or as rule-based codes, and register to the tool archive in real time. The Action Team reinference the process empowered with these targeting tools, thus establishing a closed-loop training pipeline of data-tools-action-feedback. Following the 6 level implementation roadmap proposed in this work, we have currently reached Level 3 (with limited human-in-the-loop intervention). Leveraging generalized tools obtained through reconnaissance, Recon-Act substantially improves adaptability to unseen websites and solvability on long-horizon tasks, and achieves state-of-the-art performance on the challenging VisualWebArena dataset.
- Abstract(参考訳): 近年、マルチモーダルモデルは目覚ましい進歩を遂げ、インテリジェントなブラウザ利用エージェントの道を開いた。
しかし、マルチターン・ロングホライゾン軌道における現実世界のウェブページのタスクを解く際、現在のエージェントは乱れたアクションシーケンシングと過剰な試行錯誤に悩まされている。
本稿では,Reconnaissance-Action行動パラダイムに基づく自己進化型マルチエージェントフレームワークRecon-Actを紹介する。
システムはReconnaissance TeamとAction Teamで構成されており、前者は比較分析とツール生成を行い、後者は意図の分解、ツールオーケストレーション、実行を処理する。
誤った軌道と成功した軌道とを対比することにより、リコネッサンスチームは治療を推測し、それらを一般化されたツールの統一概念に抽象化し、ヒントまたはルールベースのコードとして表現し、リアルタイムでツールアーカイブに登録する。
Action Teamはこのプロセスをこれらのターゲティングツールで強化し、データツール-アクションフィードバックのクローズドループトレーニングパイプラインを確立する。
この作業で提案された6段階の実装ロードマップに従い、現在はレベル3に達しています。
Recon-Actは、偵察によって得られた一般化されたツールを活用することで、目に見えないWebサイトへの適応性と長期的なタスクの解決可能性を大幅に向上し、挑戦的なVisualWebArenaデータセット上で最先端のパフォーマンスを達成する。
関連論文リスト
- OpAgent: Operator Agent for Web Navigation [23.928869500029432]
我々は、オンラインインタラクション環境を開発し、特殊なRLパイプラインを用いてビジョン・ランゲージ・モデル(VLM)を微調整する。
本稿では,総合的な結果評価のためのWebJudgeと,進捗報酬のためのルールベース決定木(RDT)を組み合わせたハイブリッド・リワード機構を提案する。
特に、我々のRL強化モデルは、WebArena上で38.1%の成功率(pass@5)を達成し、既存のモノリシックなベースラインを上回ります。
論文 参考訳(メタデータ) (2026-02-14T02:33:55Z) - ToolSelf: Unifying Task Execution and Self-Reconfiguration via Tool-Driven Intrinsic Adaptation [60.25542764389203]
LLM(Large Language Models)を利用したエージェントシステムは、複雑で長期のタスクに対処する上で、顕著な可能性を示している。
既存のアプローチでは、手動のオーケストレーションやランタイムベースのパッチを頼りにしており、一般化の貧弱さと最適化の断片化に悩まされることが多い。
ツール駆動の自己修正を可能にする新しいパラダイムであるToolSelfを提案する。
論文 参考訳(メタデータ) (2026-02-08T09:27:18Z) - Experience-Driven Multi-Agent Systems Are Training-free Context-aware Earth Observers [27.817039954088315]
ツールレベルの専門知識を学習するための自己進化型マルチエージェントシステムである textbfGeoEvolver を紹介する。
GeoEvolverはエンドツーエンドのタスクの成功を継続的に改善し、複数のバックボーンで平均12%向上することを示す。
論文 参考訳(メタデータ) (2026-01-30T15:11:07Z) - Trajectory2Task: Training Robust Tool-Calling Agents with Synthesized Yet Verifiable Data for Complex User Intents [52.30603055218294]
Trajectory2Taskは,3つの現実的なユーザシナリオの下で大規模なツール使用を研究するための,検証可能なデータ生成パイプラインである。
有効なツールコールトラジェクトリを、制御されたインテント適応を伴うユーザ向けタスクに変換する。
我々は、生成された複雑なユーザシナリオタスクに対して、7つの最先端のLCMをベンチマークし、頻繁な障害を観察する。
論文 参考訳(メタデータ) (2026-01-28T00:36:13Z) - OS-Symphony: A Holistic Framework for Robust and Generalist Computer-Using Agent [58.07447442040785]
私たちはOS-Symphonyを紹介します。これは、堅牢な自動化のための2つの重要なイノベーションをコーディネートするOrchestratorを含む包括的なフレームワークです。
結果は、OS-Symphonyが様々なモデルスケールで大幅なパフォーマンス向上をもたらすことを示した。
論文 参考訳(メタデータ) (2026-01-12T17:55:51Z) - DeepAgent: A General Reasoning Agent with Scalable Toolsets [111.6384541877723]
DeepAgentは、自律的な思考、ツール発見、アクション実行を実行するエンドツーエンドのディープ推論エージェントである。
長期にわたる相互作用の課題に対処するために,過去の相互作用を構造化エピソード,動作,ツール記憶に圧縮する自律的メモリ折り畳み機構を導入する。
LLMシミュレートされたAPIを活用し、ツール呼び出しトークンにきめ細かいクレジットを割り当てるツールコールアドバンテージ属性を適用した、エンドツーエンドの強化学習戦略であるToolPOを開発した。
論文 参考訳(メタデータ) (2025-10-24T16:24:01Z) - WebArXiv: Evaluating Multimodal Agents on Time-Invariant arXiv Tasks [7.4706262500758385]
本稿では,自律型Webエージェント評価のためのベンチマークであるWebArXivを紹介する。
WebArXivは、arXivプラットフォーム上に275のWebベースのタスクで構成されている。
エージェントが関連する過去のステップを選択的に検索できる軽量な動的反射機構を提案する。
論文 参考訳(メタデータ) (2025-07-01T16:43:57Z) - NaviAgent: Bilevel Planning on Tool Navigation Graph for Large-Scale Orchestration [13.925896302382043]
大規模言語モデル(LLM)は、最近、外部ツールを呼び出すことによって関数呼び出しエージェントとして機能する機能を示した。
そこで我々は,タスクプランニングをツール実行からツールエコシステムのグラフベースモデリングを通じて分離するNaviAgentを提案する。
実験によると、NaviAgentはモデルとタスク間で最高のタスク成功率を達成し、TWMNを統合することで、複雑なタスクで最大17ポイントパフォーマンスが向上する。
論文 参考訳(メタデータ) (2025-06-24T10:39:07Z) - From Virtual Agents to Robot Teams: A Multi-Robot Framework Evaluation in High-Stakes Healthcare Context [2.016235597066821]
現在のフレームワークは、エージェントを物理的に具体化されたエンティティではなく、概念的なタスク実行子として扱う。
本稿では,プロセスの透明性,前向きな障害回復,コンテキストグラウンド化を重視した3つの設計ガイドラインを提案する。
我々の研究は、よりレジリエントで堅牢なマルチエージェントロボットシステムの開発を知らせる。
論文 参考訳(メタデータ) (2025-06-04T04:05:38Z) - Enhancing Web Agents with Explicit Rollback Mechanisms [55.276852838877346]
我々は、明示的なロールバック機構でWebエージェントを強化し、エージェントがナビゲーションの軌跡の前の状態に戻れるようにした。
このメカニズムは、モデルに検索プロセスを直接制御する柔軟性を与え、効果的で効率的なWebナビゲーション方法をもたらす。
論文 参考訳(メタデータ) (2025-04-16T05:41:20Z) - R2D2: Remembering, Replaying and Dynamic Decision Making with a Reflective Agentic Memory [53.94879482534949]
現在のモデルは、Web構造の可視化と理解が限られているため、効率的なナビゲーションとアクション実行に苦しむことが多い。
提案したR2D2フレームワークは,2つのパラダイムを統合することで,これらの課題に対処する。
本研究は,記憶を増強したナビゲーションと反射学習を組み合わせることで,Webエージェントの能力が向上することが示唆された。
論文 参考訳(メタデータ) (2025-01-21T20:21:58Z) - Learning to Use Tools via Cooperative and Interactive Agents [58.77710337157665]
ツール学習は、外部ツールを使用してユーティリティを拡張するエージェントとして、大きな言語モデル(LLM)を促進する。
ツール選択,ツール実行,アクションキャリブレーションの3つの特別なエージェントを個別にコーディネートする,協調型対話型エージェントフレームワークであるConAgentsを提案する。
3つのデータセットに対する実験により、LLMは、ConAgentsを装備した場合、大幅に改善されたベースラインよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-05T15:08:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。