Fugu-MT 論文翻訳(概要): Multimodal Auto Validation For Self-Refinement in Web Agents

論文の概要: Multimodal Auto Validation For Self-Refinement in Web Agents

arxiv url: http://arxiv.org/abs/2410.00689v2
Date: Fri, 11 Oct 2024 15:42:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-05 04:25:20.089367
Title: Multimodal Auto Validation For Self-Refinement in Web Agents
Title（参考訳）: Webエージェントにおける自己修復のためのマルチモーダルオートバリデーション
Authors: Ruhana Azam, Tamer Abuelsaad, Aditya Vempaty, Ashish Jagmohan,
Abstract要約: 本稿では,マルチモーダル検証と自己補充によるWebエージェントの性能向上手法を提案する。本稿では,異なるモーダル性(テキスト,視覚)の包括的研究と,Webエージェントの自動検証における階層構造の影響について述べる。我々はまた、Webエージェントがワークフローの失敗を検出し、自己修正することを可能にする自動バリケータを開発し、Web自動化のための自己修正機構も導入した。
参考スコア（独自算出の注目度）: 0.5843533603338313
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As our world digitizes, web agents that can automate complex and monotonous tasks are becoming essential in streamlining workflows. This paper introduces an approach to improving web agent performance through multi-modal validation and self-refinement. We present a comprehensive study of different modalities (text, vision) and the effect of hierarchy for the automatic validation of web agents, building upon the state-of-the-art Agent-E web automation framework. We also introduce a self-refinement mechanism for web automation, using the developed auto-validator, that enables web agents to detect and self-correct workflow failures. Our results show significant gains on Agent-E's (a SOTA web agent) prior state-of-art performance, boosting task-completion rates from 76.2\% to 81.24\% on the subset of the WebVoyager benchmark. The approach presented in this paper paves the way for more reliable digital assistants in complex, real-world scenarios.
Abstract（参考訳）: 私たちの世界がデジタル化するにつれ、複雑で単調なタスクを自動化できるWebエージェントがワークフローの合理化に欠かせないものになりつつある。本稿では,マルチモーダル検証と自己補充によるWebエージェントの性能向上手法を提案する。本稿では,Webエージェントの自動検証のための階層構造が,最先端のAgent-E Webオートメーションフレームワークを基盤として,様々なモダリティ(テキスト,ビジョン)の包括的研究を行う。我々はまた、Webエージェントがワークフローの失敗を検出し、自己修正することを可能にする自動バリケータを開発し、Web自動化のための自己修正機構も導入した。その結果,Agent-E(SOTA Webエージェント)の最先端性能が向上し,WebVoyagerベンチマークのサブセットでタスク補完率が76.2\%から81.24\%に向上した。本稿では,複雑な実世界のシナリオにおいて,より信頼性の高いディジタルアシスタントを実現する方法について述べる。

関連論文リスト

OpAgent: Operator Agent for Web Navigation [23.928869500029432]
我々は、オンラインインタラクション環境を開発し、特殊なRLパイプラインを用いてビジョン・ランゲージ・モデル(VLM)を微調整する。本稿では,総合的な結果評価のためのWebJudgeと,進捗報酬のためのルールベース決定木(RDT)を組み合わせたハイブリッド・リワード機構を提案する。特に、我々のRL強化モデルは、WebArena上で38.1%の成功率(pass@5)を達成し、既存のモノリシックなベースラインを上回ります。
論文参考訳（メタデータ） (2026-02-14T02:33:55Z)
It's a TRAP! Task-Redirecting Agent Persuasion Benchmark for Web Agents [52.81924177620322]
大規模な言語モデルを利用したWebベースのエージェントは、メール管理やプロフェッショナルネットワーキングといったタスクにますます利用されている。動的Webコンテンツへの依存は、インジェクション攻撃の引き金に弱い: インターフェース要素に隠された敵対的命令は、エージェントが元のタスクから逸脱するように説得する。本稿では,タスクリダイレクトエージェントの説得ベンチマーク(TRAP)について紹介する。
論文参考訳（メタデータ） (2025-12-29T01:09:10Z)
InfiAgent: Self-Evolving Pyramid Agent Framework for Infinite Scenarios [28.65914611521654]
InfiAgentはピラミッドのようなDAGベースのMulti-Agent Frameworkで、textbfinfiniteのシナリオに適用できる。 InfiAgentはADAS(類似の自動生成エージェントフレームワーク)と比較して9.9%高いパフォーマンスを実現している
論文参考訳（メタデータ） (2025-09-26T15:44:09Z)
TGPO: Tree-Guided Preference Optimization for Robust Web Agent Reinforcement Learning [4.456860697635325]
強化学習による Web エージェントのトレーニングには,クレジット割り当ての誤り,アノテーションコストの禁止,パースペリティの報奨など,重要な課題が伴う。我々のフレームワークにはプロセス・リワード・モデルが組み込まれており、サブゴールの進行、冗長性の検出、行動検証を通じて、細かな報酬を自動的に生成する。 Online-Mind2Webと我々の自己構築したC-WebShopデータセットの実験は、TGPOが既存の手法よりも大幅に優れていることを示した。
論文参考訳（メタデータ） (2025-09-17T16:58:44Z)
WebCoT: Enhancing Web Agent Reasoning by Reconstructing Chain-of-Thought in Reflection, Branching, and Rollback [74.82886755416949]
有効なWebエージェントに必要な重要な推論スキルを同定する。我々はエージェントの推論アルゴリズムを連鎖論理に再構成する。このアプローチは、複数のベンチマークで大幅に改善される。
論文参考訳（メタデータ） (2025-05-26T14:03:37Z)
WebEvolver: Enhancing Web Agent Self-Improvement with Coevolving World Model [55.276852838877346]
自己進化型エージェントは、独自のポリシーに基づいて、自律的にサンプリングされた軌道上で訓練される。我々は,共進化型世界モデルLLMを導入する新しいフレームワークを提案する。この世界モデルは、Web環境における現在の観察と行動に基づいて、次の観測を予測します。
論文参考訳（メタデータ） (2025-04-23T02:54:31Z)
Enhancing Web Agents with Explicit Rollback Mechanisms [55.276852838877346]
我々は、明示的なロールバック機構でWebエージェントを強化し、エージェントがナビゲーションの軌跡の前の状態に戻れるようにした。このメカニズムは、モデルに検索プロセスを直接制御する柔軟性を与え、効果的で効率的なWebナビゲーション方法をもたらす。
論文参考訳（メタデータ） (2025-04-16T05:41:20Z)
An Illusion of Progress? Assessing the Current State of Web Agents [49.76769323750729]
我々は,Webエージェントの現状を包括的かつ厳密に評価する。結果は、現在のエージェントの能力の非常に異なる描写を描いており、以前報告された結果に過度に最適化されていることを示唆している。オンライン評価ベンチマークであるOnline-Mind2Webを紹介した。
論文参考訳（メタデータ） (2025-04-02T05:51:29Z)
Proposer-Agent-Evaluator(PAE): Autonomous Skill Discovery For Foundation Model Internet Agents [64.75036903373712]
Proposer-Agent-Evaluatorは、基礎モデルエージェントが野生のスキルを自律的に発見し、実践することを可能にする学習システムである。 PAEの中心となるタスクプロポーサは、エージェントがコンテキスト情報で実践するためのタスクを自律的に提案するコンテキスト対応タスクプロポーサである。成功評価は、エージェントがRLを介してポリシーを洗練するための報酬信号として機能する。
論文参考訳（メタデータ） (2024-12-17T18:59:50Z)
AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。 AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文参考訳（メタデータ） (2024-10-17T17:50:38Z)
Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。 55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文参考訳（メタデータ） (2024-10-14T17:57:02Z)
Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [117.94654815220404]
G"odel AgentはG"odelマシンにインスパイアされた自己進化型フレームワークである。 G"odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
論文参考訳（メタデータ） (2024-10-06T10:49:40Z)
AutoPenBench: Benchmarking Generative Agents for Penetration Testing [42.681170697805726]
本稿では,自動貫入試験における生成エージェント評価のためのオープンベンチマークであるAutoPenBenchを紹介する。エージェントが攻撃しなければならない脆弱性のあるシステムを表す33のタスクを含む包括的フレームワークを提案する。完全自律型と半自律型という2つのエージェントアーキテクチャをテストすることで,AutoPenBenchのメリットを示す。
論文参考訳（メタデータ） (2024-10-04T08:24:15Z)
Agent-E: From Autonomous Web Navigation to Foundational Design Principles in Agentic Systems [1.079505444748609]
本稿では,新しいWebエージェントであるAgent-Eの構築について紹介する。 Agent-Eは、最先端のWebエージェントよりも多くのアーキテクチャ改善を導入している。我々は,Agent-Eが他のSOTAテキストおよびマルチモーダルWebエージェントを,ほとんどのカテゴリで10～30%上回っていることを示す。
論文参考訳（メタデータ） (2024-07-17T21:44:28Z)
Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence [79.5316642687565]
既存のマルチエージェントフレームワークは、多種多様なサードパーティエージェントの統合に苦慮することが多い。我々はこれらの制限に対処する新しいフレームワークであるInternet of Agents (IoA)を提案する。 IoAはエージェント統合プロトコル、インスタントメッセージのようなアーキテクチャ設計、エージェントのチーム化と会話フロー制御のための動的メカニズムを導入している。
論文参考訳（メタデータ） (2024-07-09T17:33:24Z)
WebSuite: Systematically Evaluating Why Web Agents Fail [2.200477647229223]
我々は、ジェネラリストWebエージェントの最初の診断ベンチマークであるWebSuiteについて説明する。このベンチマークスイートは、ボタンをクリックするなどの個々のタスクと、カートにアイテムを追加するなどのエンドツーエンドタスクの両方で構成されている。我々は、テキストベースとマルチモーダルの2つの一般的なジェネラリストWebエージェントを評価し、各エージェントに固有の弱点を特定する。
論文参考訳（メタデータ） (2024-06-01T00:32:26Z)
Large Language Models Can Self-Improve At Web Agent Tasks [37.17001438055515]
大規模言語モデル(LLM)は、ゼロショットまたは少数ショットの方法でエージェントとして新しい環境をナビゲートする機能を最近デモした。 WebArena ベンチマークを用いて,LLM が長期タスクにおけるエージェントとしての性能を自己向上する方法について検討した。自己改善手順により,WebArenaベンチマークのベースモデルよりもタスク完了率を31%向上させる。
論文参考訳（メタデータ） (2024-05-30T17:52:36Z)
WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models [65.18602126334716]
既存のWebエージェントは1つの入力モダリティしか処理せず、単純化されたWebシミュレータや静的なWebスナップショットでのみ評価される。我々は,WebVoyagerを紹介した。LMM(Large Multimodal Model)を利用したWebエージェントで,現実世界のWebサイトと対話することで,エンド・ツー・エンドでのユーザ指示を完了することができる。 GPT-4(All Tools)とWebVoyager(text-only)の両方のパフォーマンスを大幅に上回る、59.1%のタスク成功率を実現していることを示す。
論文参考訳（メタデータ） (2024-01-25T03:33:18Z)
VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文参考訳（メタデータ） (2024-01-24T18:35:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。