論文の概要: Towards Coarse-grained Visual Language Navigation Task Planning Enhanced by Event Knowledge Graph
- arxiv url: http://arxiv.org/abs/2408.02535v1
- Date: Mon, 05 Aug 2024 15:08:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 18:21:53.096170
- Title: Towards Coarse-grained Visual Language Navigation Task Planning Enhanced by Event Knowledge Graph
- Title(参考訳): イベント知識グラフによる粗粒度ビジュアル言語ナビゲーションタスク計画に向けて
- Authors: Zhao Kaichen, Song Yaoxian, Zhao Haiquan, Liu Haoyu, Li Tiefeng, Li Zhixu,
- Abstract要約: 視覚言語ナビゲーション(VLN)は、AIの具現化における重要な研究の1つである。
VLN命令は粗粒度と細粒度に分類できる。
本稿では,イベント知識の強化により,VLNの粗粒度を考慮に入れたフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Visual language navigation (VLN) is one of the important research in embodied AI. It aims to enable an agent to understand the surrounding environment and complete navigation tasks. VLN instructions could be categorized into coarse-grained and fine-grained commands. Fine-grained command describes a whole task with subtasks step-by-step. In contrast, coarse-grained command gives an abstract task description, which more suites human habits. Most existing work focuses on the former kind of instruction in VLN tasks, ignoring the latter abstract instructions belonging to daily life scenarios. To overcome the above challenge in abstract instruction, we attempt to consider coarse-grained instruction in VLN by event knowledge enhancement. Specifically, we first propose a prompt-based framework to extract an event knowledge graph (named VLN-EventKG) for VLN integrally over multiple mainstream benchmark datasets. Through small and large language model collaboration, we realize knowledge-enhanced navigation planning (named EventNav) for VLN tasks with coarse-grained instruction input. Additionally, we design a novel dynamic history backtracking module to correct potential error action planning in real time. Experimental results in various public benchmarks show our knowledge-enhanced method has superiority in coarse-grained-instruction VLN using our proposed VLN-EventKG with over $5\%$ improvement in success rate. Our project is available at https://sites.google.com/view/vln-eventkg
- Abstract(参考訳): 視覚言語ナビゲーション(VLN)は、AIの具現化における重要な研究の1つである。
エージェントが周囲の環境を理解し、ナビゲーションタスクを完了できるようにすることを目的としている。
VLN命令は粗粒度と細粒度に分類できる。
きめ細かいコマンドは、サブタスクをステップバイステップで記述する。
これとは対照的に、粗いコマンドは抽象的なタスク記述を与え、それが人間の習慣を補う。
現存するほとんどの研究は、VLNタスクの以前の種類の命令に焦点を当てており、日常生活シナリオに属する後者の抽象的な命令を無視している。
上記の抽象的指導の課題を克服するため,イベント知識の強化によるVLNの粗粒度命令の検討を試みた。
具体的には、VLNのイベント知識グラフ(VLN-EventKG)を複数の主要なベンチマークデータセット上で統合的に抽出するプロンプトベースのフレームワークを提案する。
大規模かつ小規模な言語モデルコラボレーションを通じて,大まかな命令入力を伴うVLNタスクのための知識強化ナビゲーション計画(EventNav)を実現する。
また,新しい動的履歴追跡モジュールを設計し,潜在的なエラー行動計画をリアルタイムに修正する。
VLN-EventKG を用いた粗粒度 VLN における知識強化手法は, 成功率が 5 % 以上であることを示す。
私たちのプロジェクトはhttps://sites.google.com/view/vln-eventkgで利用可能です。
関連論文リスト
- Open-Nav: Exploring Zero-Shot Vision-and-Language Navigation in Continuous Environment with Open-Source LLMs [41.90732562248243]
VLN(Vision-and-Language Navigation)タスクは、エージェントが3D環境をナビゲートするためのテキスト命令に従う必要がある。
近年の手法では,VLNタスクをゼロショットで解くために,LLM(Crowd-source large language model)を用いている。
我々は、連続環境におけるゼロショットVLNのためのオープンソースのLLMを探求する新しい研究であるOpen-Navを紹介する。
論文 参考訳(メタデータ) (2024-09-27T14:47:18Z) - Can Graph Learning Improve Planning in LLM-based Agents? [61.47027387839096]
言語エージェントにおけるタスクプランニングは、大規模言語モデル(LLM)の開発とともに重要な研究トピックとして浮上している。
本稿では,課題計画のためのグラフ学習に基づく手法について検討する。
我々のグラフ学習への関心は、注意のバイアスと自己回帰的損失が、グラフ上の意思決定を効果的にナビゲートするLLMの能力を妨げているという理論的な発見に起因している。
論文 参考訳(メタデータ) (2024-05-29T14:26:24Z) - OVER-NAV: Elevating Iterative Vision-and-Language Navigation with Open-Vocabulary Detection and StructurEd Representation [96.46961207887722]
OVER-NAVは、現在のIVLN技術を超えることを目指している。
解釈されたナビゲーションデータを完全に活用するために、構造化された表現、コード化されたOmnigraphを導入する。
論文 参考訳(メタデータ) (2024-03-26T02:34:48Z) - Mind the Error! Detection and Localization of Instruction Errors in Vision-and-Language Navigation [65.25839671641218]
そこで本研究では,潜在的な人的原因を考慮に入れた各種命令誤りを導入した新しいベンチマークデータセットを提案する。
我々のベンチマークで最先端のVLN-CE法を評価する場合、成功率において顕著な性能低下(最大-25%)が観測される。
また, エラー検出とローカライゼーションにおいて, 最適な性能を実現するための, クロスモーダルトランスフォーマーアーキテクチャに基づく効率的な手法を提案する。
論文 参考訳(メタデータ) (2024-03-15T21:36:15Z) - $A^2$Nav: Action-Aware Zero-Shot Robot Navigation by Exploiting
Vision-and-Language Ability of Foundation Models [89.64729024399634]
本研究では,ゼロショット視覚言語ナビゲーション(ZS-VLN)の課題について検討する。
通常、命令は複雑な文法構造を持ち、しばしば様々な行動記述を含む。
これらのアクション要求を正しく理解し実行する方法は重要な問題であり、アノテーション付きデータがないため、さらに困難になる。
論文 参考訳(メタデータ) (2023-08-15T19:01:19Z) - Bridging the visual gap in VLN via semantically richer instructions [3.5789352263336847]
現状のモデルでは、限られた、あるいは全く視覚的データを受け取らない場合、深刻な影響を受けないことが示される。
より明示的な視覚情報の導入を促進する新しいデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-10-27T15:58:07Z) - ULN: Towards Underspecified Vision-and-Language Navigation [77.81257404252132]
Underspecificified Vision-and-Language Navigation (ULN)は、視覚・言語ナビゲーション(VLN)のための新しい設定である
本稿では,分類モジュール,ナビゲーションエージェント,エクスプロイテーション・ツー・エクスプロレーション(E2E)モジュールで構成されるVLNフレームワークを提案する。
我々のフレームワークはより堅牢で、ULNのベースラインを全レベルの相対的な成功率で10%上回る。
論文 参考訳(メタデータ) (2022-10-18T17:45:06Z) - Towards Learning a Generic Agent for Vision-and-Language Navigation via
Pre-training [150.35927365127176]
視覚・言語ナビゲーション(VLN)タスクのための,最初の事前学習および微調整パラダイムを提案する。
自己教師付き学習方式で大量の画像-テキスト-アクション三つ子を訓練することにより、事前学習されたモデルは、視覚環境と言語命令の一般的な表現を提供する。
新たなタスクにおいてより効果的に学習し、以前は目に見えない環境でより良く一般化する。
論文 参考訳(メタデータ) (2020-02-25T03:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。