Fugu-MT 論文翻訳(概要): Embodied Web Agents: Bridging Physical-Digital Realms for Integrated Agent Intelligence

論文の概要: Embodied Web Agents: Bridging Physical-Digital Realms for Integrated Agent Intelligence

arxiv url: http://arxiv.org/abs/2506.15677v1
Date: Wed, 18 Jun 2025 17:58:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-19 19:35:51.78006
Title: Embodied Web Agents: Bridging Physical-Digital Realms for Integrated Agent Intelligence
Title（参考訳）: Embodied Web Agents:統合エージェントインテリジェンスのための物理デジタル領域のブリッジ
Authors: Yining Hong, Rui Sun, Bingxuan Li, Xingcheng Yao, Maxine Wu, Alexander Chien, Da Yin, Ying Nian Wu, Zhecan James Wang, Kai-Wei Chang,
Abstract要約: Embodied Web Agentsは、エンボディメントとWebスケール推論を流動的にブリッジする、AIエージェントのための新しいパラダイムである。多様なタスクスイートを含むEmbodied Web Agents Benchmarkをリリースする。その結果、最先端のAIシステムと人間の能力の間には、大きなパフォーマンスのギャップが浮かび上がっている。
参考スコア（独自算出の注目度）: 109.32705135051486
License: http://creativecommons.org/licenses/by/4.0/
Abstract: AI agents today are mostly siloed - they either retrieve and reason over vast amount of digital information and knowledge obtained online; or interact with the physical world through embodied perception, planning and action - but rarely both. This separation limits their ability to solve tasks that require integrated physical and digital intelligence, such as cooking from online recipes, navigating with dynamic map data, or interpreting real-world landmarks using web knowledge. We introduce Embodied Web Agents, a novel paradigm for AI agents that fluidly bridge embodiment and web-scale reasoning. To operationalize this concept, we first develop the Embodied Web Agents task environments, a unified simulation platform that tightly integrates realistic 3D indoor and outdoor environments with functional web interfaces. Building upon this platform, we construct and release the Embodied Web Agents Benchmark, which encompasses a diverse suite of tasks including cooking, navigation, shopping, tourism, and geolocation - all requiring coordinated reasoning across physical and digital realms for systematic assessment of cross-domain intelligence. Experimental results reveal significant performance gaps between state-of-the-art AI systems and human capabilities, establishing both challenges and opportunities at the intersection of embodied cognition and web-scale knowledge access. All datasets, codes and websites are publicly available at our project page https://embodied-web-agent.github.io/.
Abstract（参考訳）: 今日のAIエージェントは、主にサイロ化されている — 大量のデジタル情報やオンラインで得られた知識を検索し、推論する、あるいは、具体化された知覚、計画、行動を通じて物理的な世界と対話する — が、どちらも稀である。この分離は、オンラインレシピからの調理、動的なマップデータによるナビゲーション、Web知識を使った現実世界のランドマークの解釈など、統合された物理的およびデジタルインテリジェンスを必要とするタスクを解決する能力を制限する。 Embodied Web Agentsは、エンボディメントとWebスケール推論を流動的にブリッジするAIエージェントのための新しいパラダイムである。この概念を運用するために、まずEmbodied Web Agentsタスク環境を開発する。これは、屋内および屋外の現実的な3D環境と機能的なWebインターフェースを密に統合する統合シミュレーションプラットフォームである。このプラットフォーム上に構築されたEmbodied Web Agents Benchmarkは、料理、ナビゲーション、ショッピング、観光、位置情報を含む多様なタスクスイートを含みます。実験の結果、最先端のAIシステムと人間の能力の間に大きなパフォーマンスギャップが見られ、具体的認知とWebスケールの知識アクセスの交差点における課題と機会が確立された。すべてのデータセット、コード、Webサイトは、プロジェクトのページ https://embodied-web-agent.github.io/で公開されています。

関連論文リスト

InfiniteWeb: Scalable Web Environment Synthesis for GUI Agent Training [24.578304125533734]
InfiniteWebはGUIエージェントのトレーニングのために,機能的Web環境を大規模に自動生成するシステムである。統一仕様、タスク中心のテスト駆動開発、Webサイトシードとリファレンスデザインイメージの組み合わせによる課題に対処する。実験によると、InfiniteWebはリアルなWebサイト構築において、商用のコーディングエージェントを上回っている。
論文参考訳（メタデータ） (2026-01-07T17:40:08Z)
Agentic Web: Weaving the Next Web with AI Agents [109.13815627467514]
大規模言語モデル(LLM)を活用したAIエージェントの出現は、エージェントWebに対する重要な転換点である。このパラダイムでは、エージェントが直接対話して、ユーザに代わって複雑なタスクを計画、コーディネート、実行します。本稿では,エージェントWebの理解と構築のための構造化フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-28T17:58:12Z)
Embodied AI Agents: Modeling the World [188.85697524284834]
本稿では,視覚的,仮想的,物理的形態を具現化したAIエージェントの研究について述べる。我々は,世界モデルの開発が,具体的AIエージェントの推論と計画の中心であることを提案する。また,より優れた人間とエージェントのコラボレーションを実現するために,ユーザのメンタルワールドモデルを学ぶことを提案する。
論文参考訳（メタデータ） (2025-06-27T16:05:34Z)
Reasoning in visual navigation of end-to-end trained agents: a dynamical systems approach [23.52028824411467]
本研究では,物理ロボットを用いた実環境におけるヌンペプソデスのナビゲーションエピソードに関する大規模実験を行った。エンドツーエンドのトレーニングから生じる推論のタイプを分析します。本稿では,エージェントが学習した値関数が長期計画に関連があることをポストホック分析で示す。
論文参考訳（メタデータ） (2025-03-11T11:16:47Z)
Proposer-Agent-Evaluator(PAE): Autonomous Skill Discovery For Foundation Model Internet Agents [64.75036903373712]
Proposer-Agent-Evaluatorは、基礎モデルエージェントが野生のスキルを自律的に発見し、実践することを可能にする学習システムである。 PAEの中心となるタスクプロポーサは、エージェントがコンテキスト情報で実践するためのタスクを自律的に提案するコンテキスト対応タスクプロポーサである。成功評価は、エージェントがRLを介してポリシーを洗練するための報酬信号として機能する。
論文参考訳（メタデータ） (2024-12-17T18:59:50Z)
EmbodiedCity: A Benchmark Platform for Embodied Agent in Real-world City Environment [38.14321677323052]
身体的人工知能は、エージェントの身体が人間のような行動を引き起こす役割を強調している。本稿では,実環境におけるインテリジェンス評価のためのベンチマークプラットフォームを構築する。
論文参考訳（メタデータ） (2024-10-12T17:49:26Z)
Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI [116.8199519880327]
人工知能(Embodied AI)は、人工知能(AGI)の実現に不可欠である本調査では,Embodied AIの最近の進歩を包括的に調査する。
論文参考訳（メタデータ） (2024-07-09T14:14:47Z)
MMInA: Benchmarking Multihop Multimodal Internet Agents [36.173995299002]
本稿では,マルチホップとマルチモーダルのベンチマークであるMMInAについて述べる。私たちのデータには、ショッピングや旅行など、さまざまな分野をカバーする1050の人書きタスクが含まれています。提案手法は,エージェントのシングルホップとマルチホップのWebブラウジング能力を大きく改善した。
論文参考訳（メタデータ） (2024-04-15T17:59:50Z)
V-IRL: Grounding Virtual Intelligence in Real Life [65.87750250364411]
V-IRLは、エージェントが仮想的で現実的な環境で現実世界と対話することを可能にするプラットフォームである。私たちのプラットフォームは、様々な実践的なタスクを達成できるエージェントを開発するための遊び場として役立ちます。
論文参考訳（メタデータ） (2024-02-05T18:59:36Z)
WebArena: A Realistic Web Environment for Building Autonomous Agents [92.3291458543633]
我々は、非常に現実的で再現可能な言語誘導エージェントのための環境を構築する。我々は,Web上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを持つ環境を構築する。タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
論文参考訳（メタデータ） (2023-07-25T22:59:32Z)
Intelligent Software Web Agents: A Gap Analysis [0.0]
私たちは、要件とアーキテクチャコンポーネントに関する研究によって導かれたインテリジェントなソフトウェアWebエージェントの観点で現状を調べます。提案するハイブリッドセマンティックWebエージェントアーキテクチャは,既存のセマンティックWeb標準が果たす役割を議論し,セマンティックWebエージェントのビジョンを現実化するのに有効な,より広範なセマンティックWebコミュニティにおける既存の作業を指し示すものである。
論文参考訳（メタデータ） (2021-02-12T16:32:02Z)
ThreeDWorld: A Platform for Interactive Multi-Modal Physical Simulation [75.0278287071591]
ThreeDWorld (TDW) はインタラクティブなマルチモーダル物理シミュレーションのためのプラットフォームである。 TDWは、リッチな3D環境において、高忠実な感覚データのシミュレーションと、移動体エージェントとオブジェクト間の物理的相互作用を可能にする。我々は、コンピュータビジョン、機械学習、認知科学における新たな研究方向において、TDWによって実現された初期実験を提示する。
論文参考訳（メタデータ） (2020-07-09T17:33:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。