論文の概要: WebVLN: Vision-and-Language Navigation on Websites
- arxiv url: http://arxiv.org/abs/2312.15820v1
- Date: Mon, 25 Dec 2023 22:13:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 16:18:13.376643
- Title: WebVLN: Vision-and-Language Navigation on Websites
- Title(参考訳): WebVLN: ウェブサイトの視覚・言語ナビゲーション
- Authors: Qi Chen, Dileepa Pitawela, Chongyang Zhao, Gengze Zhou, Hsiang-Ting
Chen, Qi Wu
- Abstract要約: Vision-and-Language Navigation (VLN)タスクは、AIエージェントが自然言語命令を正確に理解し、追跡できるようにすることを目的としている。
本稿ではWebVLN(Vision-and-Language Navigation on Websites)という新しいタスクを提案する。
質問ベースのインストラクションを使ってエージェントを訓練し、ユーザがWebサイトを自然に閲覧する方法をエミュレートする。
- 参考スコア(独自算出の注目度): 15.90203799238092
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-and-Language Navigation (VLN) task aims to enable AI agents to
accurately understand and follow natural language instructions to navigate
through real-world environments, ultimately reaching specific target locations.
We recognise a promising opportunity to extend VLN to a comparable navigation
task that holds substantial significance in our daily lives, albeit within the
virtual realm: navigating websites on the Internet. This paper proposes a new
task named Vision-and-Language Navigation on Websites (WebVLN), where we use
question-based instructions to train an agent, emulating how users naturally
browse websites. Unlike the existing VLN task that only pays attention to
vision and instruction (language), the WebVLN agent further considers
underlying web-specific content like HTML, which could not be seen on the
rendered web pages yet contains rich visual and textual information. Toward
this goal, we contribute a dataset, WebVLN-v1, and introduce a novel approach
called Website-aware VLN Network (WebVLN-Net), which is built upon the
foundation of state-of-the-art VLN techniques. Experimental results show that
WebVLN-Net outperforms current VLN and web-related navigation methods. We
believe that the introduction of the new WebVLN task and its dataset will
establish a new dimension within the VLN domain and contribute to the broader
vision-and-language research community. The code is available at:
https://github.com/WebVLN/WebVLN.
- Abstract(参考訳): Vision-and-Language Navigation(VLN)タスクは、AIエージェントが現実世界の環境をナビゲートするための自然言語命令を正確に理解し、追跡し、最終的に特定のターゲット位置に到達することを目的としている。
私たちはvlnを、インターネット上のウェブサイトをナビゲートする仮想領域において、私たちの日常生活において重要な意味を持つ同等のナビゲーションタスクに拡張する有望な機会を認識しています。
本稿では,webサイトにおける視覚言語ナビゲーション(vision-and-language navigation on websites, webvln)というタスクを提案する。
ビジョンとインストラクション(言語)にのみ注意を払う既存のVLNタスクとは異なり、WebVLNエージェントはさらに、レンダリングされたWebページでは見えないHTMLのような基盤となるWeb固有のコンテンツについて検討している。
この目標に向けて、WebVLN-v1というデータセットを提供し、Webサイト対応VLNネットワーク(WebVLN-Net)と呼ばれる新しいアプローチを導入する。
実験の結果,WebVLN-Netは現在のVLNおよびWeb関連ナビゲーション手法よりも優れていた。
我々は、新しいWebVLNタスクとそのデータセットの導入が、VLNドメイン内の新しい次元を確立し、より広いビジョンと言語の研究コミュニティに貢献すると考えている。
コードは、https://github.com/WebVLN/WebVLNで入手できる。
関連論文リスト
- OVER-NAV: Elevating Iterative Vision-and-Language Navigation with Open-Vocabulary Detection and StructurEd Representation [96.46961207887722]
OVER-NAVは、現在のIVLN技術を超えることを目指している。
解釈されたナビゲーションデータを完全に活用するために、構造化された表現、コード化されたOmnigraphを導入する。
論文 参考訳(メタデータ) (2024-03-26T02:34:48Z) - VLN-Video: Utilizing Driving Videos for Outdoor Vision-and-Language
Navigation [59.3649071376364]
既存のVLN法の性能は、ナビゲーション環境の多様性の不足と限られたトレーニングデータによって制限される。
VLN-Videoは、米国内の複数の都市において、自動生成ナビゲーション命令で動画を駆動する際の多様な屋外環境を利用する。
VLN-Videoは従来の最先端モデルのタスク完了率2.1%を大きく上回っている。
論文 参考訳(メタデータ) (2024-02-05T22:20:19Z) - ESceme: Vision-and-Language Navigation with Episodic Scene Memory [75.30999757774639]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)は、現実世界のシーンで自然言語のナビゲーション指示に従う視覚エージェントをシミュレートする。
本稿では,VLNにおける情景記憶(esceme)のメカニズムについて紹介する。
短距離水平ナビゲーション(R2R)、長距離水平ナビゲーション(R4R)、ビジョン・アンド・ダイアログナビゲーション(CVDN)を含む3つのVLNタスクにおけるEScemeの優位性を検証する。
論文 参考訳(メタデータ) (2023-03-02T07:42:07Z) - ULN: Towards Underspecified Vision-and-Language Navigation [77.81257404252132]
Underspecificified Vision-and-Language Navigation (ULN)は、視覚・言語ナビゲーション(VLN)のための新しい設定である
本稿では,分類モジュール,ナビゲーションエージェント,エクスプロイテーション・ツー・エクスプロレーション(E2E)モジュールで構成されるVLNフレームワークを提案する。
我々のフレームワークはより堅牢で、ULNのベースラインを全レベルの相対的な成功率で10%上回る。
論文 参考訳(メタデータ) (2022-10-18T17:45:06Z) - Airbert: In-domain Pretraining for Vision-and-Language Navigation [91.03849833486974]
ビジョン・アンド・ランゲージナビゲーション(VLN)は、エンボディエージェントが自然言語命令を使って現実的な環境をナビゲートできるようにすることを目的としている。
近年の方法は、VLN剤の一般化を改善するための事前学習である。
大規模かつ多様なドメイン内VLNデータセットであるBnBを紹介する。
論文 参考訳(メタデータ) (2021-08-20T10:58:09Z) - VISITRON: Visual Semantics-Aligned Interactively Trained
Object-Navigator [41.060371177425175]
写真リアル環境をナビゲートする対話型ロボットは、視覚・言語ナビゲーション(VLN)の基礎となる課題に直面している
CVDN固有の対話型システムに適したナビゲータであるVISITRONを提案する。
CVDNの性能向上と経験的洞察を得るため,VISITRONと広範囲にわたるアブリケーションを行った。
論文 参考訳(メタデータ) (2021-05-25T00:21:54Z) - Know What and Know Where: An Object-and-Room Informed Sequential BERT
for Indoor Vision-Language Navigation [120.90387630691816]
VLN(Vision-and-Language Navigation)は、自然言語命令と写真リアリスティックパノラマのセットに基づいて、エージェントが遠隔地へ移動する必要がある。
既存の手法の多くは、各パノラマの命令と離散ビューで単語をエンコーディングの最小単位とする。
視覚知覚と言語指示を同一のきめ細かいレベルで符号化するオブジェクトインフォームド・シーケンシャルBERTを提案する。
論文 参考訳(メタデータ) (2021-04-09T02:44:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。