論文の概要: WebCoT: Enhancing Web Agent Reasoning by Reconstructing Chain-of-Thought in Reflection, Branching, and Rollback
- arxiv url: http://arxiv.org/abs/2505.20013v1
- Date: Mon, 26 May 2025 14:03:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.488904
- Title: WebCoT: Enhancing Web Agent Reasoning by Reconstructing Chain-of-Thought in Reflection, Branching, and Rollback
- Title(参考訳): WebCoT: リフレクション、ブランチ、ロールバックのチェーンを再構築することで、Web Agent Reasoningを強化
- Authors: Minda Hu, Tianqing Fang, Jianshu Zhang, Junyu Ma, Zhisong Zhang, Jingyan Zhou, Hongming Zhang, Haitao Mi, Dong Yu, Irwin King,
- Abstract要約: 有効なWebエージェントに必要な重要な推論スキルを同定する。
我々はエージェントの推論アルゴリズムを連鎖論理に再構成する。
このアプローチは、複数のベンチマークで大幅に改善される。
- 参考スコア(独自算出の注目度): 74.82886755416949
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Web agents powered by Large Language Models (LLMs) show promise for next-generation AI, but their limited reasoning in uncertain, dynamic web environments hinders robust deployment. In this paper, we identify key reasoning skills essential for effective web agents, i.e., reflection & lookahead, branching, and rollback, and curate trajectory data that exemplifies these abilities by reconstructing the agent's (inference-time) reasoning algorithms into chain-of-thought rationales. We conduct experiments in the agent self-improving benchmark, OpenWebVoyager, and demonstrate that distilling salient reasoning patterns into the backbone LLM via simple fine-tuning can substantially enhance its performance. Our approach yields significant improvements across multiple benchmarks, including WebVoyager, Mind2web-live, and SimpleQA (web search), highlighting the potential of targeted reasoning skill enhancement for web agents.
- Abstract(参考訳): LLM(Large Language Models)を利用したWebエージェントは、次世代AIを約束するが、不確実で動的なWeb環境における制限された理由によって、ロバストなデプロイメントが妨げられる。
本稿では,効果的なWebエージェント,すなわちリフレクション&ルックアヘッド,ブランチ,ロールバックに必要な重要な推論スキルを特定し,エージェントの推論アルゴリズムをチェーン・オブ・シークレットな論理に再構成することにより,これらの能力を実証する軌道データをキュレートする。
エージェント自己改善ベンチマークであるOpenWebVoyagerで実験を行い、単純な微調整によるサルエント推論パターンを背骨LLMに蒸留することで、その性能を大幅に向上させることができることを示した。
提案手法は,WebVoyager,Mind2web-live,SimpleQA (Web Search) など,複数のベンチマークにおいて大幅な改善を実現し,Webエージェントを対象とした推論スキル向上の可能性を強調した。
関連論文リスト
- WebEvolver: Enhancing Web Agent Self-Improvement with Coevolving World Model [55.276852838877346]
自己進化型エージェントは、独自のポリシーに基づいて、自律的にサンプリングされた軌道上で訓練される。
我々は,共進化型世界モデルLLMを導入する新しいフレームワークを提案する。
この世界モデルは、Web環境における現在の観察と行動に基づいて、次の観測を予測します。
論文 参考訳(メタデータ) (2025-04-23T02:54:31Z) - Enhancing Web Agents with Explicit Rollback Mechanisms [55.276852838877346]
我々は、明示的なロールバック機構でWebエージェントを強化し、エージェントがナビゲーションの軌跡の前の状態に戻れるようにした。
このメカニズムは、モデルに検索プロセスを直接制御する柔軟性を与え、効果的で効率的なWebナビゲーション方法をもたらす。
論文 参考訳(メタデータ) (2025-04-16T05:41:20Z) - Why Are Web AI Agents More Vulnerable Than Standalone LLMs? A Security Analysis [35.57217841344101]
本研究では,WebAIエージェントの脆弱性の増加に寄与する要因について検討する。
我々は,WebAIエージェントの脆弱性を増幅する3つの重要な要因,(1)ユーザの目標をシステムプロンプトに埋め込んだこと,(2)マルチステップアクション生成,(3)観察能力の3つを特定した。
論文 参考訳(メタデータ) (2025-02-27T18:56:26Z) - R2D2: Remembering, Reflecting and Dynamic Decision Making for Web Agents [53.94879482534949]
現在のモデルは、Web構造の可視化と理解が限られているため、効率的なナビゲーションとアクション実行に苦しむことが多い。
提案したR2D2フレームワークは,2つのパラダイムを統合することで,これらの課題に対処する。
本研究は,記憶を増強したナビゲーションと反射学習を組み合わせることで,Webエージェントの能力が向上することが示唆された。
論文 参考訳(メタデータ) (2025-01-21T20:21:58Z) - OpenWebVoyager: Building Multimodal Web Agents via Iterative Real-World Exploration, Feedback and Optimization [66.22117723598872]
マルチモーダルWebエージェントの開発を容易にするために設計されたオープンソースフレームワークを紹介する。
まず、基本モデルを模倣学習で訓練し、基礎能力を得る。
次に、エージェントにオープンウェブを探索させ、その軌道に関するフィードバックを収集する。
論文 参考訳(メタデータ) (2024-10-25T15:01:27Z) - Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [117.94654815220404]
G"odel AgentはG"odelマシンにインスパイアされた自己進化型フレームワークである。
G"odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
論文 参考訳(メタデータ) (2024-10-06T10:49:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。