論文の概要: Embodied Web Agents: Bridging Physical-Digital Realms for Integrated Agent Intelligence
- arxiv url: http://arxiv.org/abs/2506.15677v1
- Date: Wed, 18 Jun 2025 17:58:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.78006
- Title: Embodied Web Agents: Bridging Physical-Digital Realms for Integrated Agent Intelligence
- Title(参考訳): Embodied Web Agents:統合エージェントインテリジェンスのための物理デジタル領域のブリッジ
- Authors: Yining Hong, Rui Sun, Bingxuan Li, Xingcheng Yao, Maxine Wu, Alexander Chien, Da Yin, Ying Nian Wu, Zhecan James Wang, Kai-Wei Chang,
- Abstract要約: Embodied Web Agentsは、エンボディメントとWebスケール推論を流動的にブリッジする、AIエージェントのための新しいパラダイムである。
多様なタスクスイートを含むEmbodied Web Agents Benchmarkをリリースする。
その結果、最先端のAIシステムと人間の能力の間には、大きなパフォーマンスのギャップが浮かび上がっている。
- 参考スコア(独自算出の注目度): 109.32705135051486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI agents today are mostly siloed - they either retrieve and reason over vast amount of digital information and knowledge obtained online; or interact with the physical world through embodied perception, planning and action - but rarely both. This separation limits their ability to solve tasks that require integrated physical and digital intelligence, such as cooking from online recipes, navigating with dynamic map data, or interpreting real-world landmarks using web knowledge. We introduce Embodied Web Agents, a novel paradigm for AI agents that fluidly bridge embodiment and web-scale reasoning. To operationalize this concept, we first develop the Embodied Web Agents task environments, a unified simulation platform that tightly integrates realistic 3D indoor and outdoor environments with functional web interfaces. Building upon this platform, we construct and release the Embodied Web Agents Benchmark, which encompasses a diverse suite of tasks including cooking, navigation, shopping, tourism, and geolocation - all requiring coordinated reasoning across physical and digital realms for systematic assessment of cross-domain intelligence. Experimental results reveal significant performance gaps between state-of-the-art AI systems and human capabilities, establishing both challenges and opportunities at the intersection of embodied cognition and web-scale knowledge access. All datasets, codes and websites are publicly available at our project page https://embodied-web-agent.github.io/.
- Abstract(参考訳): 今日のAIエージェントは、主にサイロ化されている — 大量のデジタル情報やオンラインで得られた知識を検索し、推論する、あるいは、具体化された知覚、計画、行動を通じて物理的な世界と対話する — が、どちらも稀である。
この分離は、オンラインレシピからの調理、動的なマップデータによるナビゲーション、Web知識を使った現実世界のランドマークの解釈など、統合された物理的およびデジタルインテリジェンスを必要とするタスクを解決する能力を制限する。
Embodied Web Agentsは、エンボディメントとWebスケール推論を流動的にブリッジするAIエージェントのための新しいパラダイムである。
この概念を運用するために、まずEmbodied Web Agentsタスク環境を開発する。これは、屋内および屋外の現実的な3D環境と機能的なWebインターフェースを密に統合する統合シミュレーションプラットフォームである。
このプラットフォーム上に構築されたEmbodied Web Agents Benchmarkは、料理、ナビゲーション、ショッピング、観光、位置情報を含む多様なタスクスイートを含みます。
実験の結果、最先端のAIシステムと人間の能力の間に大きなパフォーマンスギャップが見られ、具体的認知とWebスケールの知識アクセスの交差点における課題と機会が確立された。
すべてのデータセット、コード、Webサイトは、プロジェクトのページ https://embodied-web-agent.github.io/で公開されています。
関連論文リスト
- Proposer-Agent-Evaluator(PAE): Autonomous Skill Discovery For Foundation Model Internet Agents [64.75036903373712]
Proposer-Agent-Evaluatorは、基礎モデルエージェントが野生のスキルを自律的に発見し、実践することを可能にする学習システムである。
PAEの中心となるタスクプロポーサは、エージェントがコンテキスト情報で実践するためのタスクを自律的に提案するコンテキスト対応タスクプロポーサである。
成功評価は、エージェントがRLを介してポリシーを洗練するための報酬信号として機能する。
論文 参考訳(メタデータ) (2024-12-17T18:59:50Z) - EmbodiedCity: A Benchmark Platform for Embodied Agent in Real-world City Environment [38.14321677323052]
身体的人工知能は、エージェントの身体が人間のような行動を引き起こす役割を強調している。
本稿では,実環境におけるインテリジェンス評価のためのベンチマークプラットフォームを構築する。
論文 参考訳(メタデータ) (2024-10-12T17:49:26Z) - MMInA: Benchmarking Multihop Multimodal Internet Agents [36.173995299002]
本稿では,マルチホップとマルチモーダルのベンチマークであるMMInAについて述べる。
私たちのデータには、ショッピングや旅行など、さまざまな分野をカバーする1050の人書きタスクが含まれています。
提案手法は,エージェントのシングルホップとマルチホップのWebブラウジング能力を大きく改善した。
論文 参考訳(メタデータ) (2024-04-15T17:59:50Z) - V-IRL: Grounding Virtual Intelligence in Real Life [65.87750250364411]
V-IRLは、エージェントが仮想的で現実的な環境で現実世界と対話することを可能にするプラットフォームである。
私たちのプラットフォームは、様々な実践的なタスクを達成できるエージェントを開発するための遊び場として役立ちます。
論文 参考訳(メタデータ) (2024-02-05T18:59:36Z) - WebArena: A Realistic Web Environment for Building Autonomous Agents [92.3291458543633]
我々は、非常に現実的で再現可能な言語誘導エージェントのための環境を構築する。
我々は,Web上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを持つ環境を構築する。
タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
論文 参考訳(メタデータ) (2023-07-25T22:59:32Z) - Intelligent Software Web Agents: A Gap Analysis [0.0]
私たちは、要件とアーキテクチャコンポーネントに関する研究によって導かれたインテリジェントなソフトウェアWebエージェントの観点で現状を調べます。
提案するハイブリッドセマンティックWebエージェントアーキテクチャは,既存のセマンティックWeb標準が果たす役割を議論し,セマンティックWebエージェントのビジョンを現実化するのに有効な,より広範なセマンティックWebコミュニティにおける既存の作業を指し示すものである。
論文 参考訳(メタデータ) (2021-02-12T16:32:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。