論文の概要: WebShop: Towards Scalable Real-World Web Interaction with Grounded
Language Agents
- arxiv url: http://arxiv.org/abs/2207.01206v1
- Date: Mon, 4 Jul 2022 05:30:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-06 03:29:15.416708
- Title: WebShop: Towards Scalable Real-World Web Interaction with Grounded
Language Agents
- Title(参考訳): WebShop: グラウンドド言語エージェントによるスケーラブルな実世界のWebインタラクションを目指す
- Authors: Shunyu Yao, Howard Chen, John Yang, Karthik Narasimhan
- Abstract要約: WebShopは、実世界の製品が18億ドル、クラウドソースのテキストが12,087ドルという、模擬eコマースのWeb環境だ。
我々は、強化学習、模倣学習、事前訓練された画像および言語モデルを用いて、多様なエージェントを訓練し、評価する。
amazon.comで評価すると、WebShopで訓練されたエージェントは非自明なsim-to-real転送を示す。
- 参考スコア(独自算出の注目度): 34.03800649845855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing benchmarks for grounding language in interactive environments either
lack real-world linguistic elements, or prove difficult to scale up due to
substantial human involvement in the collection of data or feedback signals. To
bridge this gap, we develop WebShop -- a simulated e-commerce website
environment with $1.18$ million real-world products and $12,087$ crowd-sourced
text instructions. Given a text instruction specifying a product requirement,
an agent needs to navigate multiple types of webpages and issue diverse actions
to find, customize, and purchase an item. WebShop provides several challenges
for language grounding including understanding compositional instructions,
query (re-)formulation, comprehending and acting on noisy text in webpages, and
performing strategic exploration. We collect over $1,600$ human demonstrations
for the task, and train and evaluate a diverse range of agents using
reinforcement learning, imitation learning, and pre-trained image and language
models. Our best model achieves a task success rate of $29\%$, which
outperforms rule-based heuristics ($9.6\%$) but is far lower than human expert
performance ($59\%$). We also analyze agent and human trajectories and ablate
various model components to provide insights for developing future agents with
stronger language understanding and decision making abilities. Finally, we show
that agents trained on WebShop exhibit non-trivial sim-to-real transfer when
evaluated on amazon.com, indicating the potential value of WebShop in
developing practical web-based agents that can operate in the wild.
- Abstract(参考訳): インタラクティブな環境での言語を基盤とする既存のベンチマークでは、実際の言語要素が欠如しているか、あるいはデータやフィードバック信号の収集に人間がかなり関与しているため、スケールアップが困難である。
このギャップを埋めるため、私たちはwebshopを開発しました。webshopはシミュレーションされたeコマースのwebサイト環境で、実世界の製品が118万ドル、クラウドソースのテキストインストラクションが12,087ドルです。
製品要件を指定するテキスト命令が与えられると、エージェントは複数のタイプのウェブページをナビゲートし、アイテムを探し、カスタマイズし、購入するためにさまざまなアクションを発行する必要があります。
WebShopは、コンポジション命令の理解、クエリ(re-)フォーミュレーション、Webページ内の騒々しいテキストの理解と動作、戦略的探索など、言語基盤に関するいくつかの課題を提供する。
このタスクのために1,600ドル以上の人的デモンストレーションを集め、強化学習、模倣学習、事前訓練された画像および言語モデルを用いて多様なエージェントを訓練し、評価する。
私たちの最良のモデルは、ルールベースのヒューリスティック($9.6\%$)よりも優れていますが、人間のエキスパートのパフォーマンス($59\%$)よりもはるかに低いタスク成功率を実現しています。
また,エージェントと人間の軌跡を分析し,より強力な言語理解と意思決定能力を備えた未来のエージェント開発のための洞察を提供する。
最後に、WebShopで訓練されたエージェントが、amazon.comで評価すると、非自明なsim-to-real転送を示すことを示す。
関連論文リスト
- Symbolic Learning Enables Self-Evolving Agents [55.625275970720374]
エージェントシンボリックラーニング(エージェントシンボリックラーニング)(エージェントシンボリックラーニング)は、言語エージェントが自分自身で最適化できるための体系的なフレームワークである。
エージェント記号学習は、コネクショナリズム学習における2つの基本的なアルゴリズムを模倣することにより、言語エージェント内のシンボルネットワークを最適化するように設計されている。
我々は、標準ベンチマークと複雑な実世界のタスクの両方で概念実証実験を行う。
論文 参考訳(メタデータ) (2024-06-26T17:59:18Z) - Scaling Instructable Agents Across Many Simulated Worlds [70.97268311053328]
私たちのゴールは、シミュレーションされた3D環境で人間ができることを何でも達成できるエージェントを開発することです。
我々のアプローチは、最小限の仮定を示唆しながら、言語駆動の一般性に焦点を当てている。
我々のエージェントは、汎用的なヒューマンライクなインタフェースを使って、リアルタイムで環境と対話する。
論文 参考訳(メタデータ) (2024-03-13T17:50:32Z) - VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。
このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文 参考訳(メタデータ) (2024-01-24T18:35:21Z) - Learning to Model the World with Language [100.76069091703505]
人間と対話し、世界で行動するためには、エージェントは人々が使用する言語の範囲を理解し、それを視覚の世界に関連付ける必要がある。
私たちのキーとなるアイデアは、エージェントが将来を予測するのに役立つ信号として、このような多様な言語を解釈すべきである、ということです。
我々は、将来のテキストや画像表現を予測するマルチモーダル世界モデルを学ぶエージェントであるDynalangでこれをインスタンス化する。
論文 参考訳(メタデータ) (2023-07-31T17:57:49Z) - TextMI: Textualize Multimodal Information for Integrating Non-verbal
Cues in Pre-trained Language Models [5.668457303716451]
マルチモーダルな行動分析タスクのための汎用的,競争的なベースラインとして,TextMIを提案する。
我々のアプローチは、モデルの複雑さを著しく減らし、モデルの判断に解釈可能性を追加し、様々なタスクに適用できます。
論文 参考訳(メタデータ) (2023-03-27T17:54:32Z) - Distilling Internet-Scale Vision-Language Models into Embodied Agents [24.71298634838615]
本稿では,事前学習型視覚言語モデル (VLM) を用いてエンボディエージェントの監視を行う。
モデル蒸留と後視体験リプレイ(HER)のアイデアを組み合わせて,エージェントの振る舞いを記述する言語を遡及的に生成する。
我々の研究は、インターネットスケールのVLMを使うための新しい効果的な方法を概説し、そのようなモデルによって獲得された汎用的な言語基盤を再利用して、エンボディエージェントにタスク関連グラウンドを指導する。
論文 参考訳(メタデータ) (2023-01-29T18:21:05Z) - Intra-agent speech permits zero-shot task acquisition [13.19051572784014]
ヒトの「インナースピーチ」のプロセスからインスピレーションを得て、具体的行動におけるエージェント内スピーチの役割をよりよく理解する。
我々は、ほとんどラベル付き言語データによる視覚的接頭字幕作成を可能にするアルゴリズムを開発した。
我々は,3次元仮想世界で動作している体現型移動マニピュレータエージェントにエージェント内音声を組み込む。
論文 参考訳(メタデータ) (2022-06-07T09:28:10Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。