論文の概要: NNetscape Navigator: Complex Demonstrations for Web Agents Without a Demonstrator
- arxiv url: http://arxiv.org/abs/2410.02907v1
- Date: Thu, 3 Oct 2024 18:56:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-03 05:05:01.670608
- Title: NNetscape Navigator: Complex Demonstrations for Web Agents Without a Demonstrator
- Title(参考訳): NNetscape Navigator: デモ無しのWebエージェントのための複雑なデモ
- Authors: Shikhar Murty, Dzmitry Bahdanau, Christopher D. Manning,
- Abstract要約: NNetscape Navigator (NNetnav)は、ウェブエージェントを人工的なデモンストレーションで完全に訓練する方法である。
NNetnavは、言語命令の階層構造を利用して、この検索をより魅力的にしている。
WebArenaで6k以上のNNetnavデモのデータセットをリリースしました。
- 参考スコア(独自算出の注目度): 42.81368782434817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce NNetscape Navigator (NNetnav), a method for training web agents entirely through synthetic demonstrations. These demonstrations are collected by first interacting with a browser to generate trajectory rollouts, which are then retroactively labeled into instructions using a language model. Most work on training browser agents has relied on expensive human supervision, and the limited previous work on such interaction-first synthetic data techniques has failed to provide effective search through the exponential space of exploration. In contrast, NNetnav exploits the hierarchical structure of language instructions to make this search more tractable: complex instructions are typically decomposable into simpler subtasks, allowing NNetnav to automatically prune interaction episodes when an intermediate trajectory cannot be annotated with a meaningful sub-task. We use NNetnav demonstrations from a language model for supervised fine-tuning of a smaller language model policy, and find improvements of 6 points on WebArena and over 20 points on MiniWoB++, two popular environments for web-agents. Notably, on WebArena, we observe that language model policies can be further enhanced when fine-tuned with NNetnav demonstrations derived from the same language model. Finally, we collect and release a dataset of over 6k NNetnav demonstrations on WebArena, spanning a diverse and complex set of instructions.
- Abstract(参考訳): 我々はNNetscape Navigator (NNetnav)を紹介した。
これらのデモは、まずブラウザと対話してトラジェクトリのロールアウトを生成することで収集される。
ブラウザエージェントを訓練する作業の多くは、高価な人間の監督に依存しており、そのようなインタラクションファーストの合成データ技術に関するこれまでの限られた作業は、指数的な探索空間を通じて効果的な検索を提供しられなかった。
複雑な命令は通常、単純なサブタスクに分解可能であり、中間のトラジェクトリに意味のあるサブタスクをアノテートできない場合に、NNetnavが自動的に対話エピソードをプルーすることを可能にする。
我々は、より小さな言語モデルポリシーの微調整を監督するために、言語モデルからNNetnavのデモを使用しており、WebArenaでは6ポイント、Webエージェントでは2つの人気のある環境であるMiniWoB++では20ポイント以上改善されている。
特に、WebArenaでは、同じ言語モデルから派生したNNetnavのデモを微調整することで、言語モデルポリシーをさらに強化することができる。
最後に、WebArenaで6k以上のNNetnavデモのデータセットを収集し、リリースします。
関連論文リスト
- Uni-NaVid: A Video-based Vision-Language-Action Model for Unifying Embodied Navigation Tasks [24.690910258151693]
既存のボディードナビゲーションのモデルは、現実の世界で実践的なジェネラリストとして機能するには足りていない。
多様な具体的ナビゲーションタスクを統合するために設計された,ビデオベースの視覚言語アクションモデルであるUni-NaVidを提案する。
Uni-NaVidは、一般的に使われているすべてのナビゲーションタスクの入力および出力データ構成によってこれを達成している。
論文 参考訳(メタデータ) (2024-12-09T05:55:55Z) - UnitedVLN: Generalizable Gaussian Splatting for Continuous Vision-Language Navigation [71.97405667493477]
我々は,UnitedVLNと呼ばれる,新しい汎用3DGSベースの事前学習パラダイムを導入する。
エージェントは、高忠実度360度ビジュアルイメージとセマンティック特徴を統一してレンダリングすることで、将来の環境をよりよく探索することができる。
UnitedVLNは既存のVLN-CEベンチマークで最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-11-25T02:44:59Z) - Memory Proxy Maps for Visual Navigation [6.1190419149081245]
視覚的なナビゲーションは人間からインスピレーションを受け、視覚を使って、詳細な環境マップを使わずに、これまで見えなかった環境をナビゲートする。
これに触発されて、封建的学習を用いた視覚ナビゲーションのための、No-RL、No-graph、No-odometryアプローチを導入し、3つのタイレッドエージェントを構築した。
論文 参考訳(メタデータ) (2024-11-15T02:37:14Z) - NaviQAte: Functionality-Guided Web Application Navigation [6.0759036120654315]
NaviQAteは、Webアプリケーションの探索を質問と回答のタスクとして捉え、詳細なパラメータを必要とせずに機能のためのアクションシーケンスを生成する。
我々の3段階のアプローチでは、GPT-4oのような先進的な言語モデルを用いて複雑な意思決定を行い、GPT-4o miniのようなコスト効率のよいモデルを用いる。
論文 参考訳(メタデータ) (2024-09-16T21:18:39Z) - InstructNav: Zero-shot System for Generic Instruction Navigation in Unexplored Environment [5.43847693345519]
本研究では,汎用的な命令ナビゲーションシステムであるInstructNavを提案する。
InstructNavは、ナビゲーショントレーニングやビルド済みのマップを使わずに、さまざまな命令ナビゲーションタスクを最初に処理する。
InstructNavでは、R2R-CEタスクを初めてゼロショットで完了し、多くのタスク学習方法より優れています。
論文 参考訳(メタデータ) (2024-06-07T12:26:34Z) - Interactive Semantic Map Representation for Skill-based Visual Object
Navigation [43.71312386938849]
本稿では,室内環境との相互作用にともなうシーンセマンティックマップの表現について紹介する。
我々はこの表現をSkillTronと呼ばれる本格的なナビゲーション手法に実装した。
提案手法により,ロボット探索の中間目標とオブジェクトナビゲーションの最終目標の両方を形成できる。
論文 参考訳(メタデータ) (2023-11-07T16:30:12Z) - $A^2$Nav: Action-Aware Zero-Shot Robot Navigation by Exploiting
Vision-and-Language Ability of Foundation Models [89.64729024399634]
本研究では,ゼロショット視覚言語ナビゲーション(ZS-VLN)の課題について検討する。
通常、命令は複雑な文法構造を持ち、しばしば様々な行動記述を含む。
これらのアクション要求を正しく理解し実行する方法は重要な問題であり、アノテーション付きデータがないため、さらに困難になる。
論文 参考訳(メタデータ) (2023-08-15T19:01:19Z) - Multimodal Web Navigation with Instruction-Finetuned Foundation Models [99.14209521903854]
視覚言語基礎モデルを用いたWebエージェントのためのデータ駆動オフライントレーニングについて検討する。
本稿では,WebページのスクリーンショットとHTMLページの両方を観察する命令追従型マルチモーダルエージェントWebGUMを提案する。
このレシピは,マルチモーダル認識,HTML理解,マルチステップ推論といったエージェントの能力を向上させることを実証的に実証する。
論文 参考訳(メタデータ) (2023-05-19T17:44:34Z) - AVLEN: Audio-Visual-Language Embodied Navigation in 3D Environments [60.98664330268192]
AVLEN(Audio-Visual-Language Embodied Navigationの対話型エージェント)を提案する。
AVLENの目標は、3Dビジュアルワールドをナビゲートすることでオーディオイベントをローカライズすることである。
これらの能力を実現するために、AVLENはマルチモーダル階層的な強化学習バックボーンを使用する。
論文 参考訳(メタデータ) (2022-10-14T16:35:06Z) - Active Visual Information Gathering for Vision-Language Navigation [115.40768457718325]
視覚言語ナビゲーション(VLN)は、エージェントがフォトリアリスティックな環境の中でナビゲーションの指示を行うためのタスクである。
VLNの重要な課題の1つは、曖昧な指示による不確実性を緩和し、環境の観察を不十分にすることで、堅牢なナビゲーションを行う方法である。
この研究は、人間のナビゲーション行動からインスピレーションを得て、よりインテリジェントなVLNポリシーのためのアクティブな情報収集能力を持つエージェントを提供する。
論文 参考訳(メタデータ) (2020-07-15T23:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。