論文の概要: NNetscape Navigator: Complex Demonstrations for Web Agents Without a Demonstrator
- arxiv url: http://arxiv.org/abs/2410.02907v1
- Date: Thu, 3 Oct 2024 18:56:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-03 05:05:01.670608
- Title: NNetscape Navigator: Complex Demonstrations for Web Agents Without a Demonstrator
- Title(参考訳): NNetscape Navigator: デモ無しのWebエージェントのための複雑なデモ
- Authors: Shikhar Murty, Dzmitry Bahdanau, Christopher D. Manning,
- Abstract要約: NNetscape Navigator (NNetnav)は、ウェブエージェントを人工的なデモンストレーションで完全に訓練する方法である。
NNetnavは、言語命令の階層構造を利用して、この検索をより魅力的にしている。
WebArenaで6k以上のNNetnavデモのデータセットをリリースしました。
- 参考スコア(独自算出の注目度): 42.81368782434817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce NNetscape Navigator (NNetnav), a method for training web agents entirely through synthetic demonstrations. These demonstrations are collected by first interacting with a browser to generate trajectory rollouts, which are then retroactively labeled into instructions using a language model. Most work on training browser agents has relied on expensive human supervision, and the limited previous work on such interaction-first synthetic data techniques has failed to provide effective search through the exponential space of exploration. In contrast, NNetnav exploits the hierarchical structure of language instructions to make this search more tractable: complex instructions are typically decomposable into simpler subtasks, allowing NNetnav to automatically prune interaction episodes when an intermediate trajectory cannot be annotated with a meaningful sub-task. We use NNetnav demonstrations from a language model for supervised fine-tuning of a smaller language model policy, and find improvements of 6 points on WebArena and over 20 points on MiniWoB++, two popular environments for web-agents. Notably, on WebArena, we observe that language model policies can be further enhanced when fine-tuned with NNetnav demonstrations derived from the same language model. Finally, we collect and release a dataset of over 6k NNetnav demonstrations on WebArena, spanning a diverse and complex set of instructions.
- Abstract(参考訳): 我々はNNetscape Navigator (NNetnav)を紹介した。
これらのデモは、まずブラウザと対話してトラジェクトリのロールアウトを生成することで収集される。
ブラウザエージェントを訓練する作業の多くは、高価な人間の監督に依存しており、そのようなインタラクションファーストの合成データ技術に関するこれまでの限られた作業は、指数的な探索空間を通じて効果的な検索を提供しられなかった。
複雑な命令は通常、単純なサブタスクに分解可能であり、中間のトラジェクトリに意味のあるサブタスクをアノテートできない場合に、NNetnavが自動的に対話エピソードをプルーすることを可能にする。
我々は、より小さな言語モデルポリシーの微調整を監督するために、言語モデルからNNetnavのデモを使用しており、WebArenaでは6ポイント、Webエージェントでは2つの人気のある環境であるMiniWoB++では20ポイント以上改善されている。
特に、WebArenaでは、同じ言語モデルから派生したNNetnavのデモを微調整することで、言語モデルポリシーをさらに強化することができる。
最後に、WebArenaで6k以上のNNetnavデモのデータセットを収集し、リリースします。
関連論文リスト
- Interactive Semantic Map Representation for Skill-based Visual Object
Navigation [43.71312386938849]
本稿では,室内環境との相互作用にともなうシーンセマンティックマップの表現について紹介する。
我々はこの表現をSkillTronと呼ばれる本格的なナビゲーション手法に実装した。
提案手法により,ロボット探索の中間目標とオブジェクトナビゲーションの最終目標の両方を形成できる。
論文 参考訳(メタデータ) (2023-11-07T16:30:12Z) - Prompt-based Context- and Domain-aware Pretraining for Vision and
Language Navigation [19.793659852435486]
本稿では,これらの問題に対処する新しい Prompt-bAsed coNtext- and inDoor-Aware (PANDA) プレトレーニングフレームワークを提案する。
室内認識の段階では,室内データセットから深い視覚的プロンプトを学習するために,効率的なチューニングパラダイムを適用している。
文脈認識の段階では、命令中のシーケンスレベルの意味をキャプチャするハードコンテキストプロンプトのセットを設計する。
論文 参考訳(メタデータ) (2023-09-07T11:58:34Z) - $A^2$Nav: Action-Aware Zero-Shot Robot Navigation by Exploiting
Vision-and-Language Ability of Foundation Models [89.64729024399634]
本研究では,ゼロショット視覚言語ナビゲーション(ZS-VLN)の課題について検討する。
通常、命令は複雑な文法構造を持ち、しばしば様々な行動記述を含む。
これらのアクション要求を正しく理解し実行する方法は重要な問題であり、アノテーション付きデータがないため、さらに困難になる。
論文 参考訳(メタデータ) (2023-08-15T19:01:19Z) - Lana: A Language-Capable Navigator for Instruction Following and
Generation [70.76686546473994]
LANAは言語対応のナビゲーションエージェントで、人書きのナビゲーションコマンドを実行し、人へのルート記述を提供することができる。
我々は、最近の高度なタスク固有解と比較して、LANAが命令追従と経路記述の両方においてより良い性能を発揮することを実証的に検証した。
加えて、言語生成能力が与えられたLANAは、人間の行動を説明し、人間のウェイフィンディングを支援することができる。
論文 参考訳(メタデータ) (2023-03-15T07:21:28Z) - AVLEN: Audio-Visual-Language Embodied Navigation in 3D Environments [60.98664330268192]
AVLEN(Audio-Visual-Language Embodied Navigationの対話型エージェント)を提案する。
AVLENの目標は、3Dビジュアルワールドをナビゲートすることでオーディオイベントをローカライズすることである。
これらの能力を実現するために、AVLENはマルチモーダル階層的な強化学習バックボーンを使用する。
論文 参考訳(メタデータ) (2022-10-14T16:35:06Z) - LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language,
Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。
本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文 参考訳(メタデータ) (2022-07-10T10:41:50Z) - Towards Learning a Generic Agent for Vision-and-Language Navigation via
Pre-training [150.35927365127176]
視覚・言語ナビゲーション(VLN)タスクのための,最初の事前学習および微調整パラダイムを提案する。
自己教師付き学習方式で大量の画像-テキスト-アクション三つ子を訓練することにより、事前学習されたモデルは、視覚環境と言語命令の一般的な表現を提供する。
新たなタスクにおいてより効果的に学習し、以前は目に見えない環境でより良く一般化する。
論文 参考訳(メタデータ) (2020-02-25T03:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。