Fugu-MT 論文翻訳(概要): OpenWebVoyager: Building Multimodal Web Agents via Iterative Real-World Exploration, Feedback and Optimization

論文の概要: OpenWebVoyager: Building Multimodal Web Agents via Iterative Real-World Exploration, Feedback and Optimization

arxiv url: http://arxiv.org/abs/2410.19609v1
Date: Fri, 25 Oct 2024 15:01:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:40.453052
Title: OpenWebVoyager: Building Multimodal Web Agents via Iterative Real-World Exploration, Feedback and Optimization
Title（参考訳）: OpenWebVoyager: 反復的リアルタイム探索、フィードバック、最適化によるマルチモーダルWebエージェントの構築
Authors: Hongliang He, Wenlin Yao, Kaixin Ma, Wenhao Yu, Hongming Zhang, Tianqing Fang, Zhenzhong Lan, Dong Yu,
Abstract要約: マルチモーダルWebエージェントの開発を容易にするために設計されたオープンソースフレームワークを紹介する。まず、基本モデルを模倣学習で訓練し、基礎能力を得る。次に、エージェントにオープンウェブを探索させ、その軌道に関するフィードバックを収集する。
参考スコア（独自算出の注目度）: 66.22117723598872
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapid development of large language and multimodal models has sparked significant interest in using proprietary models, such as GPT-4o, to develop autonomous agents capable of handling real-world scenarios like web navigation. Although recent open-source efforts have tried to equip agents with the ability to explore environments and continuously improve over time, they are building text-only agents in synthetic environments where the reward signals are clearly defined. Such agents struggle to generalize to realistic settings that require multimodal perception abilities and lack ground-truth signals. In this paper, we introduce an open-source framework designed to facilitate the development of multimodal web agent that can autonomously conduct real-world exploration and improve itself. We first train the base model with imitation learning to gain the basic abilities. We then let the agent explore the open web and collect feedback on its trajectories. After that, it further improves its policy by learning from well-performing trajectories judged by another general-purpose model. This exploration-feedback-optimization cycle can continue for several iterations. Experimental results show that our web agent successfully improves itself after each iteration, demonstrating strong performance across multiple test sets.
Abstract（参考訳）: 大規模言語やマルチモーダルモデルの急速な開発は、GPT-4oのようなプロプライエタリなモデルを使用して、Webナビゲーションのような現実のシナリオを扱うことができる自律エージェントを開発することに、大きな関心を惹き付けている。最近のオープンソースの取り組みでは、エージェントに環境を探索し、時間とともに継続的に改善する能力を与えようとしているが、報酬信号を明確に定義した合成環境において、テキストのみのエージェントを構築している。このようなエージェントは、マルチモーダルな知覚能力と地味信号の欠如を必要とする現実的な設定への一般化に苦慮している。本稿では,マルチモーダルWebエージェントの開発を支援するオープンソースフレームワークについて紹介する。まず、基本モデルを模倣学習で訓練し、基礎能力を得る。次に、エージェントにオープンウェブを探索させ、その軌道に関するフィードバックを収集する。その後、他の汎用モデルで判断される良好な軌道から学習することで、その政策をさらに改善する。この探索フィードバック最適化サイクルは、何回か繰り返し続けることができる。実験の結果,Webエージェントは各イテレーション後に自己改善に成功し,複数のテストセットにまたがって高い性能を示すことがわかった。

関連論文リスト

WebCoT: Enhancing Web Agent Reasoning by Reconstructing Chain-of-Thought in Reflection, Branching, and Rollback [74.82886755416949]
有効なWebエージェントに必要な重要な推論スキルを同定する。我々はエージェントの推論アルゴリズムを連鎖論理に再構成する。このアプローチは、複数のベンチマークで大幅に改善される。
論文参考訳（メタデータ） (2025-05-26T14:03:37Z)
Rethinking Agent Design: From Top-Down Workflows to Bottom-Up Skill Evolution [34.66260172204154]
人間の学習過程を反映したボトムアップエージェントパラダイムを導入する。エージェントは、試行錯誤メカニズムを探索し、成果を反映し、時間とともにスキルを抽象化することで能力を獲得する。 Slay the Spire and Civilization Vでは、エージェントが生の視覚的入力を通じて知覚し、マウスのアウトプットを介して行動する。
論文参考訳（メタデータ） (2025-05-23T09:38:55Z)
WebEvolver: Enhancing Web Agent Self-Improvement with Coevolving World Model [55.276852838877346]
自己進化型エージェントは、独自のポリシーに基づいて、自律的にサンプリングされた軌道上で訓練される。我々は,共進化型世界モデルLLMを導入する新しいフレームワークを提案する。この世界モデルは、Web環境における現在の観察と行動に基づいて、次の観測を予測します。
論文参考訳（メタデータ） (2025-04-23T02:54:31Z)
Enhancing Web Agents with Explicit Rollback Mechanisms [55.276852838877346]
我々は、明示的なロールバック機構でWebエージェントを強化し、エージェントがナビゲーションの軌跡の前の状態に戻れるようにした。このメカニズムは、モデルに検索プロセスを直接制御する柔軟性を与え、効果的で効率的なWebナビゲーション方法をもたらす。
論文参考訳（メタデータ） (2025-04-16T05:41:20Z)
Proposer-Agent-Evaluator(PAE): Autonomous Skill Discovery For Foundation Model Internet Agents [64.75036903373712]
Proposer-Agent-Evaluatorは、基礎モデルエージェントが野生のスキルを自律的に発見し、実践することを可能にする学習システムである。 PAEの中心となるタスクプロポーサは、エージェントがコンテキスト情報で実践するためのタスクを自律的に提案するコンテキスト対応タスクプロポーサである。成功評価は、エージェントがRLを介してポリシーを洗練するための報酬信号として機能する。
論文参考訳（メタデータ） (2024-12-17T18:59:50Z)
APT: Architectural Planning and Text-to-Blueprint Construction Using Large Language Models for Open-World Agents [8.479128275067742]
本稿では,自律型エージェントによるMinecraftの複雑な構造構築を可能にする,LLM(Large Language Model)駆動のフレームワークを提案する。連鎖分解とマルチモーダル入力を用いることで、このフレームワークは詳細なアーキテクチャレイアウトと青写真を生成する。本エージェントは, メモリとリフレクションモジュールの両方を組み込んで, 生涯学習, 適応的洗練, エラー訂正を容易にする。
論文参考訳（メタデータ） (2024-11-26T09:31:28Z)
Automating Traffic Model Enhancement with AI Research Agent [4.420199777075044]
Traffic Research Agent(TR-Agent)は、交通モデルを自律的に開発・洗練するAI駆動システムである。 TR-Agentは、複数のトラフィックモデルで大幅なパフォーマンス向上を実現している。研究とコラボレーションをさらに支援するため、私たちは実験で使用されるコードとデータの両方をオープンソース化しました。
論文参考訳（メタデータ） (2024-09-25T12:42:25Z)
Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents [44.34340798542]
大きな言語モデル(LLM)は、複雑な推論を必要とする自然言語タスクにおいて顕著な能力を示している。静的データセットに対する従来の教師付き事前トレーニングは、自律的なエージェント機能を実現するには不十分である。本稿では,モンテカルロ木探索(MCTS)を自己批判機構と組み合わせ,エージェント間相互作用を反復的に微調整するフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-13T20:52:13Z)
Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence [79.5316642687565]
既存のマルチエージェントフレームワークは、多種多様なサードパーティエージェントの統合に苦慮することが多い。我々はこれらの制限に対処する新しいフレームワークであるInternet of Agents (IoA)を提案する。 IoAはエージェント統合プロトコル、インスタントメッセージのようなアーキテクチャ設計、エージェントのチーム化と会話フロー制御のための動的メカニズムを導入している。
論文参考訳（メタデータ） (2024-07-09T17:33:24Z)
AgentGym: Evolving Large Language Model-based Agents across Diverse Environments [116.97648507802926]
大規模言語モデル(LLM)はそのようなエージェントを構築するための有望な基盤と考えられている。我々は、自己進化能力を備えた一般機能 LLM ベースのエージェントを構築するための第一歩を踏み出す。我々はAgentGymを提案する。AgentGymは、幅広い、リアルタイム、ユニフォーマット、並行エージェント探索のための様々な環境とタスクを特徴とする新しいフレームワークである。
論文参考訳（メタデータ） (2024-06-06T15:15:41Z)
An Interactive Agent Foundation Model [49.77861810045509]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文参考訳（メタデータ） (2024-02-08T18:58:02Z)
Agent AI: Surveying the Horizons of Multimodal Interaction [83.18367129924997]
エージェントAI(Agent AI)とは、視覚刺激や言語入力、その他の環境データを知覚できる対話型システムである。我々は,バーチャルリアリティやシミュレートされたシーンを容易に作成し,仮想環境内に具体化されたエージェントと対話できる未来を構想する。
論文参考訳（メタデータ） (2024-01-07T19:11:18Z)
SMARTS: Scalable Multi-Agent Reinforcement Learning Training School for Autonomous Driving [96.50297622371457]
マルチエージェントインタラクションは、現実の世界における自律運転の基本的な側面である。研究と開発が10年以上続いたにもかかわらず、様々なシナリオで多様な道路ユーザーと対話する方法の問題は未解決のままである。 SMARTSと呼ばれる,多種多様な運転インタラクションを生成する専用シミュレーションプラットフォームを開発した。
論文参考訳（メタデータ） (2020-10-19T18:26:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。