Fugu-MT 論文翻訳(概要): OVER-NAV: Elevating Iterative Vision-and-Language Navigation with Open-Vocabulary Detection and StructurEd Representation

論文の概要: OVER-NAV: Elevating Iterative Vision-and-Language Navigation with Open-Vocabulary Detection and StructurEd Representation

arxiv url: http://arxiv.org/abs/2403.17334v1
Date: Tue, 26 Mar 2024 02:34:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-27 16:55:40.562803
Title: OVER-NAV: Elevating Iterative Vision-and-Language Navigation with Open-Vocabulary Detection and StructurEd Representation
Title（参考訳）: OVER-NAV:Open-Vocabulary DetectionとStructurEd表現を用いた反復的視覚・言語ナビゲーション
Authors: Ganlong Zhao, Guanbin Li, Weikai Chen, Yizhou Yu,
Abstract要約: OVER-NAVは、現在のIVLN技術を超えることを目指している。解釈されたナビゲーションデータを完全に活用するために、構造化された表現、コード化されたOmnigraphを導入する。
参考スコア（独自算出の注目度）: 96.46961207887722
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in Iterative Vision-and-Language Navigation (IVLN) introduce a more meaningful and practical paradigm of VLN by maintaining the agent's memory across tours of scenes. Although the long-term memory aligns better with the persistent nature of the VLN task, it poses more challenges on how to utilize the highly unstructured navigation memory with extremely sparse supervision. Towards this end, we propose OVER-NAV, which aims to go over and beyond the current arts of IVLN techniques. In particular, we propose to incorporate LLMs and open-vocabulary detectors to distill key information and establish correspondence between multi-modal signals. Such a mechanism introduces reliable cross-modal supervision and enables on-the-fly generalization to unseen scenes without the need of extra annotation and re-training. To fully exploit the interpreted navigation data, we further introduce a structured representation, coded Omnigraph, to effectively integrate multi-modal information along the tour. Accompanied with a novel omnigraph fusion mechanism, OVER-NAV is able to extract the most relevant knowledge from omnigraph for a more accurate navigating action. In addition, OVER-NAV seamlessly supports both discrete and continuous environments under a unified framework. We demonstrate the superiority of OVER-NAV in extensive experiments.
Abstract（参考訳）: 近年のIterative Vision-and-Language Navigation (IVLN)の進歩は、エージェントの記憶を様々な場面で維持することで、より有意義で実践的なVLNパラダイムを導入している。長期記憶はVLNタスクの永続性によく適合するが、高度に構造化されていないナビゲーションメモリを極めて少ない監視で利用する方法により多くの課題が生じる。そこで本研究では,現在のIVLN技術を超越することを目的としたOVER-NAVを提案する。特に,LLMとオープンボキャブラリ検出器を組み込んでキー情報を蒸留し,マルチモーダル信号間の対応を確立することを提案する。このようなメカニズムは、信頼性の高いクロスモーダル監視を導入し、追加のアノテーションや再トレーニングを必要とせずに、オンザフライでの一般化を可能にする。インタプリタナビゲーションデータを完全に活用するために,構造化表現であるOmnigraphを導入し,ツアーに沿ったマルチモーダル情報を効果的に統合する。新たなオムニグラフ融合機構を伴い、OVER-NAVはオムニグラフから最も関連性の高い知識を抽出し、より正確なナビゲーションを行うことができる。さらに、OVER-NAVは統一されたフレームワークの下で、離散環境と連続環境の両方をシームレスにサポートする。我々は、OVER-NAVの広範な実験における優位性を実証する。

関連論文リスト

VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory [43.2995099083993]
VLAモデルは、認識と計画を統合することで、航法を具現化する有望な可能性を示してきた。既存のVLAモデルは、観察から行動へのリアクティブマッピングに直接依存している。 VLingNav(VLAモデル)を提案する。
論文参考訳（メタデータ） (2026-01-13T15:43:43Z)
Breaking Down and Building Up: Mixture of Skill-Based Vision-and-Language Navigation Agents [43.5771856761934]
VLN(Vision-and-Language Navigation)は、自然言語命令を解釈し、複雑な3D環境をナビゲートするエージェントにとって大きな課題となる。トランスフォーマーベースのVLNエージェントに構造化されたスキルベースの推論を導入するモジュラーフレームワークであるSkillNavを提案する。
論文参考訳（メタデータ） (2025-08-11T05:50:30Z)
UAV-VLN: End-to-End Vision Language guided Navigation for UAVs [0.0]
AI誘導の自律性における中核的な課題は、エージェントが以前見えなかった環境で現実的で効果的にナビゲートできるようにすることである。 UAV-VLNは無人航空機(UAV)のための新しいエンドツーエンドビジョンランゲージナビゲーションフレームワークである。本システムでは,自由形式の自然言語命令を解釈し,視覚的観察に利用し,多様な環境下で実現可能な航空軌道を計画する。
論文参考訳（メタデータ） (2025-04-30T08:40:47Z)
Observation-Graph Interaction and Key-Detail Guidance for Vision and Language Navigation [7.150985186031763]
視覚と言語ナビゲーション(VLN)では、エージェントが自然言語の指示に従う環境をナビゲートする必要がある。既存の手法は、ナビゲーション中に視覚的な観察と指示の詳細を効果的に統合するのに苦労することが多い。 OIKGは2つのキーコンポーネントを通してこれらの制限に対処する新しいフレームワークである。
論文参考訳（メタデータ） (2025-03-14T02:05:16Z)
UnitedVLN: Generalizable Gaussian Splatting for Continuous Vision-Language Navigation [71.97405667493477]
我々は,UnitedVLNと呼ばれる,新しい汎用3DGSベースの事前学習パラダイムを導入する。エージェントは、高忠実度360度ビジュアルイメージとセマンティック特徴を統一してレンダリングすることで、将来の環境をよりよく探索することができる。 UnitedVLNは既存のVLN-CEベンチマークで最先端の手法より優れている。
論文参考訳（メタデータ） (2024-11-25T02:44:59Z)
Exploring Spatial Representation to Enhance LLM Reasoning in Aerial Vision-Language Navigation [11.267956604072845]
ALN(Aerial Vision-and-Language Navigation)は、無人航空機(Unmanned Aerial Vehicles、UAV)が自然言語の指示や視覚的手がかりを通じて屋外の環境を航行できるようにする新しいタスクである。本稿では,大規模言語モデル(LLM)をアクション予測のエージェントとして活用する,空飛ぶVLNタスクのためのトレーニングフリーゼロショットフレームワークを提案する。
論文参考訳（メタデータ） (2024-10-11T03:54:48Z)
Vision-and-Language Navigation Generative Pretrained Transformer [0.0]
VLN-GPT(Vision-and-Language Navigation Generative Pretrained Transformer) トランスフォーマーデコーダモデル(GPT2)を採用してトラジェクトリシーケンスの依存関係をモデル化し、歴史的エンコーディングモジュールの必要性を回避している。 VLNデータセットのパフォーマンス評価は、VLN-GPTが複雑な最先端エンコーダベースモデルを上回ることを示している。
論文参考訳（メタデータ） (2024-05-27T09:42:04Z)
TINA: Think, Interaction, and Action Framework for Zero-Shot Vision Language Navigation [11.591176410027224]
本稿では,Large Language Models(LLM)に基づく視覚言語ナビゲーション(VLN)エージェントを提案する。環境認識におけるLLMの欠点を補うための思考・相互作用・行動の枠組みを提案する。また,本手法は教師付き学習手法よりも優れ,ゼロショットナビゲーションの有効性を強調した。
論文参考訳（メタデータ） (2024-03-13T05:22:39Z)
Towards Learning a Generalist Model for Embodied Navigation [24.816490551945435]
そこで本研究では,NaviLLM を具体化するための最初のジェネラリストモデルを提案する。スキーマベースの命令を導入することで、LCMをナビゲーションの具体化に適応する。我々は,モデルの性能と一般化性を評価するため,広範囲な実験を行った。
論文参考訳（メタデータ） (2023-12-04T16:32:51Z)
ULN: Towards Underspecified Vision-and-Language Navigation [77.81257404252132]
Underspecificified Vision-and-Language Navigation (ULN)は、視覚・言語ナビゲーション(VLN)のための新しい設定である本稿では,分類モジュール,ナビゲーションエージェント,エクスプロイテーション・ツー・エクスプロレーション(E2E)モジュールで構成されるVLNフレームワークを提案する。我々のフレームワークはより堅牢で、ULNのベースラインを全レベルの相対的な成功率で10%上回る。
論文参考訳（メタデータ） (2022-10-18T17:45:06Z)
History Aware Multimodal Transformer for Vision-and-Language Navigation [96.80655332881432]
ヴィジュアル・アンド・ランゲージナビゲーション(VLN)は、指示に従う自律的な視覚エージェントの構築と、実際のシーンでのナビゲーションを目的としている。長い水平履歴をマルチモーダルな意思決定に組み込むために,HAMT(History Aware Multimodal Transformer)を導入する。
論文参考訳（メタデータ） (2021-10-25T22:54:41Z)
Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。ナビゲーション中に知覚を正確に記憶できるほど区画化されている。また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文参考訳（メタデータ） (2021-03-05T03:41:00Z)
A Recurrent Vision-and-Language BERT for Navigation [54.059606864535304]
本稿では,視覚・言語ナビゲーションにおける時間認識型BERTモデルを提案する。我々のモデルは、より複雑なエンコーダデコーダモデルを置き換えることで、最先端の結果が得られる。
論文参考訳（メタデータ） (2020-11-26T00:23:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。