論文の概要: WebVLN: Vision-and-Language Navigation on Websites
- arxiv url: http://arxiv.org/abs/2312.15820v1
- Date: Mon, 25 Dec 2023 22:13:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 16:18:13.376643
- Title: WebVLN: Vision-and-Language Navigation on Websites
- Title(参考訳): WebVLN: ウェブサイトの視覚・言語ナビゲーション
- Authors: Qi Chen, Dileepa Pitawela, Chongyang Zhao, Gengze Zhou, Hsiang-Ting
Chen, Qi Wu
- Abstract要約: Vision-and-Language Navigation (VLN)タスクは、AIエージェントが自然言語命令を正確に理解し、追跡できるようにすることを目的としている。
本稿ではWebVLN(Vision-and-Language Navigation on Websites)という新しいタスクを提案する。
質問ベースのインストラクションを使ってエージェントを訓練し、ユーザがWebサイトを自然に閲覧する方法をエミュレートする。
- 参考スコア(独自算出の注目度): 15.90203799238092
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-and-Language Navigation (VLN) task aims to enable AI agents to
accurately understand and follow natural language instructions to navigate
through real-world environments, ultimately reaching specific target locations.
We recognise a promising opportunity to extend VLN to a comparable navigation
task that holds substantial significance in our daily lives, albeit within the
virtual realm: navigating websites on the Internet. This paper proposes a new
task named Vision-and-Language Navigation on Websites (WebVLN), where we use
question-based instructions to train an agent, emulating how users naturally
browse websites. Unlike the existing VLN task that only pays attention to
vision and instruction (language), the WebVLN agent further considers
underlying web-specific content like HTML, which could not be seen on the
rendered web pages yet contains rich visual and textual information. Toward
this goal, we contribute a dataset, WebVLN-v1, and introduce a novel approach
called Website-aware VLN Network (WebVLN-Net), which is built upon the
foundation of state-of-the-art VLN techniques. Experimental results show that
WebVLN-Net outperforms current VLN and web-related navigation methods. We
believe that the introduction of the new WebVLN task and its dataset will
establish a new dimension within the VLN domain and contribute to the broader
vision-and-language research community. The code is available at:
https://github.com/WebVLN/WebVLN.
- Abstract(参考訳): Vision-and-Language Navigation(VLN)タスクは、AIエージェントが現実世界の環境をナビゲートするための自然言語命令を正確に理解し、追跡し、最終的に特定のターゲット位置に到達することを目的としている。
私たちはvlnを、インターネット上のウェブサイトをナビゲートする仮想領域において、私たちの日常生活において重要な意味を持つ同等のナビゲーションタスクに拡張する有望な機会を認識しています。
本稿では,webサイトにおける視覚言語ナビゲーション(vision-and-language navigation on websites, webvln)というタスクを提案する。
ビジョンとインストラクション(言語)にのみ注意を払う既存のVLNタスクとは異なり、WebVLNエージェントはさらに、レンダリングされたWebページでは見えないHTMLのような基盤となるWeb固有のコンテンツについて検討している。
この目標に向けて、WebVLN-v1というデータセットを提供し、Webサイト対応VLNネットワーク(WebVLN-Net)と呼ばれる新しいアプローチを導入する。
実験の結果,WebVLN-Netは現在のVLNおよびWeb関連ナビゲーション手法よりも優れていた。
我々は、新しいWebVLNタスクとそのデータセットの導入が、VLNドメイン内の新しい次元を確立し、より広いビジョンと言語の研究コミュニティに貢献すると考えている。
コードは、https://github.com/WebVLN/WebVLNで入手できる。
関連論文リスト
- UnitedVLN: Generalizable Gaussian Splatting for Continuous Vision-Language Navigation [71.97405667493477]
我々は,UnitedVLNと呼ばれる,新しい汎用3DGSベースの事前学習パラダイムを導入する。
エージェントは、高忠実度360度ビジュアルイメージとセマンティック特徴を統一してレンダリングすることで、将来の環境をよりよく探索することができる。
UnitedVLNは既存のVLN-CEベンチマークで最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-11-25T02:44:59Z) - NL-SLAM for OC-VLN: Natural Language Grounded SLAM for Object-Centric VLN [8.788856156414026]
我々は,オブジェクト中心の自然言語ナビゲーション命令を明確に評価するために,新しいデータセットOC-VLNを提案する。
また,ロボットの観察とポーズに対する自然言語指導手法である自然言語接地SLAM(NL-SLAM)を提案する。
論文 参考訳(メタデータ) (2024-11-12T15:01:40Z) - Navigation with VLM framework: Go to Any Language [2.9869976373921916]
視覚的大言語モデル(VLM)は、言語と視覚データの両方を推論する際、顕著な能力を示した。
このフレームワークは、機器レベルのVLMを利用して、エージェントがオープンシーンで特定の言語目標や非特定の言語目標に向かって移動できるようにする。
本研究では,Habitat シミュレータ内の Matterport 3D (MP3D) , Habitat Matterport 3D (HM3D) および Gibson データセットから,詳細な環境下での NavVLM の評価を行った。
論文 参考訳(メタデータ) (2024-09-18T02:29:00Z) - Towards Coarse-grained Visual Language Navigation Task Planning Enhanced by Event Knowledge Graph [0.0]
視覚言語ナビゲーション(VLN)は、AIの具現化における重要な研究の1つである。
VLN命令は粗粒度と細粒度に分類できる。
本稿では,イベント知識の強化により,VLNの粗粒度を考慮に入れたフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-05T15:08:26Z) - Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs [95.8010627763483]
モビリティVLAは、環境理解と長文VLMの常識推論能力を組み合わせた、階層的なビジョン・ランゲージ・アクション(VLA)ナビゲーションポリシーである。
従来未解決であったマルチモーダル命令に対して,モビリティVLAはエンドツーエンドの成功率が高いことを示す。
論文 参考訳(メタデータ) (2024-07-10T15:49:07Z) - Why Only Text: Empowering Vision-and-Language Navigation with Multi-modal Prompts [37.20272055902246]
Vision-and-Language Navigation with Multi-Modal Prompts (VLN-MP) は、自然言語と画像の両方を命令に統合することにより、従来のVLNを増強する新しいタスクである。
VLN-MPは、テキストのみのプロンプトを効果的に扱うことで後方互換性を維持するだけでなく、異なる量と視覚的プロンプトの関連性を一貫して示す。
論文 参考訳(メタデータ) (2024-06-04T11:06:13Z) - VLN-Video: Utilizing Driving Videos for Outdoor Vision-and-Language
Navigation [59.3649071376364]
既存のVLN法の性能は、ナビゲーション環境の多様性の不足と限られたトレーニングデータによって制限される。
VLN-Videoは、米国内の複数の都市において、自動生成ナビゲーション命令で動画を駆動する際の多様な屋外環境を利用する。
VLN-Videoは従来の最先端モデルのタスク完了率2.1%を大きく上回っている。
論文 参考訳(メタデータ) (2024-02-05T22:20:19Z) - ULN: Towards Underspecified Vision-and-Language Navigation [77.81257404252132]
Underspecificified Vision-and-Language Navigation (ULN)は、視覚・言語ナビゲーション(VLN)のための新しい設定である
本稿では,分類モジュール,ナビゲーションエージェント,エクスプロイテーション・ツー・エクスプロレーション(E2E)モジュールで構成されるVLNフレームワークを提案する。
我々のフレームワークはより堅牢で、ULNのベースラインを全レベルの相対的な成功率で10%上回る。
論文 参考訳(メタデータ) (2022-10-18T17:45:06Z) - Airbert: In-domain Pretraining for Vision-and-Language Navigation [91.03849833486974]
ビジョン・アンド・ランゲージナビゲーション(VLN)は、エンボディエージェントが自然言語命令を使って現実的な環境をナビゲートできるようにすることを目的としている。
近年の方法は、VLN剤の一般化を改善するための事前学習である。
大規模かつ多様なドメイン内VLNデータセットであるBnBを紹介する。
論文 参考訳(メタデータ) (2021-08-20T10:58:09Z) - Know What and Know Where: An Object-and-Room Informed Sequential BERT
for Indoor Vision-Language Navigation [120.90387630691816]
VLN(Vision-and-Language Navigation)は、自然言語命令と写真リアリスティックパノラマのセットに基づいて、エージェントが遠隔地へ移動する必要がある。
既存の手法の多くは、各パノラマの命令と離散ビューで単語をエンコーディングの最小単位とする。
視覚知覚と言語指示を同一のきめ細かいレベルで符号化するオブジェクトインフォームド・シーケンシャルBERTを提案する。
論文 参考訳(メタデータ) (2021-04-09T02:44:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。