論文の概要: WebCoT: Enhancing Web Agent Reasoning by Reconstructing Chain-of-Thought in Reflection, Branching, and Rollback
- arxiv url: http://arxiv.org/abs/2505.20013v2
- Date: Thu, 18 Sep 2025 11:32:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 15:20:14.636266
- Title: WebCoT: Enhancing Web Agent Reasoning by Reconstructing Chain-of-Thought in Reflection, Branching, and Rollback
- Title(参考訳): WebCoT: リフレクション、ブランチ、ロールバックのチェーンを再構築することで、Web Agent Reasoningを強化
- Authors: Minda Hu, Tianqing Fang, Jianshu Zhang, Junyu Ma, Zhisong Zhang, Jingyan Zhou, Hongming Zhang, Haitao Mi, Dong Yu, Irwin King,
- Abstract要約: 有効なWebエージェントに必要な重要な推論スキルを同定する。
我々はエージェントの推論アルゴリズムを連鎖論理に再構成する。
このアプローチは、複数のベンチマークで大幅に改善される。
- 参考スコア(独自算出の注目度): 78.55946306325914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Web agents powered by Large Language Models (LLMs) show promise for next-generation AI, but their limited reasoning in uncertain, dynamic web environments hinders robust deployment. In this paper, we identify key reasoning skills essential for effective web agents, i.e., reflection & lookahead, branching, and rollback, and curate trajectory data that exemplifies these abilities by reconstructing the agent's (inference-time) reasoning algorithms into chain-of-thought rationales. We conduct experiments in the agent self-improving benchmark, OpenWebVoyager, and demonstrate that distilling salient reasoning patterns into the backbone LLM via simple fine-tuning can substantially enhance its performance. Our approach yields significant improvements across multiple benchmarks, including WebVoyager, Mind2web-live, and SimpleQA (web search), highlighting the potential of targeted reasoning skill enhancement for web agents.
- Abstract(参考訳): LLM(Large Language Models)を利用したWebエージェントは、次世代AIを約束するが、不確実で動的なWeb環境における制限された理由によって、ロバストなデプロイメントが妨げられる。
本稿では,効果的なWebエージェント,すなわちリフレクション&ルックアヘッド,ブランチ,ロールバックに必要な重要な推論スキルを特定し,エージェントの推論アルゴリズムをチェーン・オブ・シークレットな論理に再構成することにより,これらの能力を実証する軌道データをキュレートする。
エージェント自己改善ベンチマークであるOpenWebVoyagerで実験を行い、単純な微調整によるサルエント推論パターンを背骨LLMに蒸留することで、その性能を大幅に向上させることができることを示した。
提案手法は,WebVoyager,Mind2web-live,SimpleQA (Web Search) など,複数のベンチマークにおいて大幅な改善を実現し,Webエージェントを対象とした推論スキル向上の可能性を強調した。
関連論文リスト
- OpAgent: Operator Agent for Web Navigation [23.928869500029432]
我々は、オンラインインタラクション環境を開発し、特殊なRLパイプラインを用いてビジョン・ランゲージ・モデル(VLM)を微調整する。
本稿では,総合的な結果評価のためのWebJudgeと,進捗報酬のためのルールベース決定木(RDT)を組み合わせたハイブリッド・リワード機構を提案する。
特に、我々のRL強化モデルは、WebArena上で38.1%の成功率(pass@5)を達成し、既存のモノリシックなベースラインを上回ります。
論文 参考訳(メタデータ) (2026-02-14T02:33:55Z) - It's a TRAP! Task-Redirecting Agent Persuasion Benchmark for Web Agents [52.81924177620322]
大規模な言語モデルを利用したWebベースのエージェントは、メール管理やプロフェッショナルネットワーキングといったタスクにますます利用されている。
動的Webコンテンツへの依存は、インジェクション攻撃の引き金に弱い: インターフェース要素に隠された敵対的命令は、エージェントが元のタスクから逸脱するように説得する。
本稿では,タスクリダイレクトエージェントの説得ベンチマーク(TRAP)について紹介する。
論文 参考訳(メタデータ) (2025-12-29T01:09:10Z) - WebSeer: Training Deeper Search Agents through Reinforcement Learning with Self-Reflection [51.10348385624784]
本稿では,自己回帰機構によって強化された強化学習によって訓練された,よりインテリジェントな検索エージェントであるWebSeerを紹介する。
提案手法はツール使用チェーンを大幅に拡張し,回答精度を向上する。
論文 参考訳(メタデータ) (2025-10-21T16:52:00Z) - TGPO: Tree-Guided Preference Optimization for Robust Web Agent Reinforcement Learning [4.456860697635325]
強化学習による Web エージェントのトレーニングには,クレジット割り当ての誤り,アノテーションコストの禁止,パースペリティの報奨など,重要な課題が伴う。
我々のフレームワークにはプロセス・リワード・モデルが組み込まれており、サブゴールの進行、冗長性の検出、行動検証を通じて、細かな報酬を自動的に生成する。
Online-Mind2Webと我々の自己構築したC-WebShopデータセットの実験は、TGPOが既存の手法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-09-17T16:58:44Z) - WebArXiv: Evaluating Multimodal Agents on Time-Invariant arXiv Tasks [27.091938524991534]
本稿では,自律型Webエージェント評価のためのベンチマークであるWebArXivを紹介する。
WebArXivは、arXivプラットフォーム上に275のWebベースのタスクで構成されている。
エージェントが関連する過去のステップを選択的に検索できる軽量な動的反射機構を提案する。
論文 参考訳(メタデータ) (2025-07-01T16:43:57Z) - WebThinker: Empowering Large Reasoning Models with Deep Research Capability [109.8504165631888]
WebThinkerは、LEMがウェブを自律的に検索し、ウェブページをナビゲートし、推論プロセス中にレポートをドラフトすることを可能にするディープリサーチエージェントである。
また、Autonomous Think-Search-and-Draft戦略を採用しており、モデルが推論、情報収集、レポート作成をリアルタイムでシームレスにインターリーブすることができる。
我々のアプローチは複雑なシナリオにおけるLEMの信頼性と適用性を高め、より有能で多目的な深層研究システムへの道を開く。
論文 参考訳(メタデータ) (2025-04-30T16:25:25Z) - WebEvolver: Enhancing Web Agent Self-Improvement with Coevolving World Model [55.276852838877346]
自己進化型エージェントは、独自のポリシーに基づいて、自律的にサンプリングされた軌道上で訓練される。
我々は,共進化型世界モデルLLMを導入する新しいフレームワークを提案する。
この世界モデルは、Web環境における現在の観察と行動に基づいて、次の観測を予測します。
論文 参考訳(メタデータ) (2025-04-23T02:54:31Z) - Enhancing Web Agents with Explicit Rollback Mechanisms [55.276852838877346]
我々は、明示的なロールバック機構でWebエージェントを強化し、エージェントがナビゲーションの軌跡の前の状態に戻れるようにした。
このメカニズムは、モデルに検索プロセスを直接制御する柔軟性を与え、効果的で効率的なWebナビゲーション方法をもたらす。
論文 参考訳(メタデータ) (2025-04-16T05:41:20Z) - Why Are Web AI Agents More Vulnerable Than Standalone LLMs? A Security Analysis [35.57217841344101]
本研究では,WebAIエージェントの脆弱性の増加に寄与する要因について検討する。
我々は,WebAIエージェントの脆弱性を増幅する3つの重要な要因,(1)ユーザの目標をシステムプロンプトに埋め込んだこと,(2)マルチステップアクション生成,(3)観察能力の3つを特定した。
論文 参考訳(メタデータ) (2025-02-27T18:56:26Z) - Agentic Reasoning: A Streamlined Framework for Enhancing LLM Reasoning with Agentic Tools [19.70178343422698]
本稿では,外部ツール利用エージェントを統合することで,大規模言語モデル(LLM)推論を強化するフレームワークであるAgentic Reasoningを紹介する。
私たちのフレームワークにおける重要な革新はMind-Mapエージェントです。
DeepSeek-R1にデプロイすると、パブリックモデル間で新しいSOTA(State-of-the-art)を実現する。
論文 参考訳(メタデータ) (2025-02-07T04:08:46Z) - R2D2: Remembering, Reflecting and Dynamic Decision Making for Web Agents [53.94879482534949]
現在のモデルは、Web構造の可視化と理解が限られているため、効率的なナビゲーションとアクション実行に苦しむことが多い。
提案したR2D2フレームワークは,2つのパラダイムを統合することで,これらの課題に対処する。
本研究は,記憶を増強したナビゲーションと反射学習を組み合わせることで,Webエージェントの能力が向上することが示唆された。
論文 参考訳(メタデータ) (2025-01-21T20:21:58Z) - OpenWebVoyager: Building Multimodal Web Agents via Iterative Real-World Exploration, Feedback and Optimization [66.22117723598872]
マルチモーダルWebエージェントの開発を容易にするために設計されたオープンソースフレームワークを紹介する。
まず、基本モデルを模倣学習で訓練し、基礎能力を得る。
次に、エージェントにオープンウェブを探索させ、その軌道に関するフィードバックを収集する。
論文 参考訳(メタデータ) (2024-10-25T15:01:27Z) - AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。
AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文 参考訳(メタデータ) (2024-10-17T17:50:38Z) - Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [117.94654815220404]
G"odel AgentはG"odelマシンにインスパイアされた自己進化型フレームワークである。
G"odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
論文 参考訳(メタデータ) (2024-10-06T10:49:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。