論文の概要: Landmark-Guided Knowledge for Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2509.25655v1
- Date: Tue, 30 Sep 2025 01:54:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:44:59.978633
- Title: Landmark-Guided Knowledge for Vision-and-Language Navigation
- Title(参考訳): ランドマーク誘導による視覚・言語ナビゲーションの知識
- Authors: Dongsheng Yang, Meiling Zhu, Yinfeng Yu,
- Abstract要約: 本稿ではLandmark-Guided Knowledge (LGK) と呼ばれる視覚・言語ナビゲーション手法を提案する。
LGKはナビゲーションを支援するための外部知識ベースを導入し、従来の手法では常識の欠如が原因で生じる誤報問題に対処している。
実験の結果,LGK法はR2RとREVERIEのナビゲーションデータセットにおいて,既存の最先端手法よりも優れていた。
- 参考スコア(独自算出の注目度): 3.4453453129508875
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision-and-language navigation is one of the core tasks in embodied intelligence, requiring an agent to autonomously navigate in an unfamiliar environment based on natural language instructions. However, existing methods often fail to match instructions with environmental information in complex scenarios, one reason being the lack of common-sense reasoning ability. This paper proposes a vision-and-language navigation method called Landmark-Guided Knowledge (LGK), which introduces an external knowledge base to assist navigation, addressing the misjudgment issues caused by insufficient common sense in traditional methods. Specifically, we first construct a knowledge base containing 630,000 language descriptions and use knowledge Matching to align environmental subviews with the knowledge base, extracting relevant descriptive knowledge. Next, we design a Knowledge-Guided by Landmark (KGL) mechanism, which guides the agent to focus on the most relevant parts of the knowledge by leveraging landmark information in the instructions, thereby reducing the data bias that may arise from incorporating external knowledge. Finally, we propose Knowledge-Guided Dynamic Augmentation (KGDA), which effectively integrates language, knowledge, vision, and historical information. Experimental results demonstrate that the LGK method outperforms existing state-of-the-art methods on the R2R and REVERIE vision-and-language navigation datasets, particularly in terms of navigation error, success rate, and path efficiency.
- Abstract(参考訳): 視覚と言語のナビゲーションは、インテリジェンスにおける中核的なタスクの1つであり、エージェントは自然言語の指示に基づいて、未知の環境で自律的にナビゲートする必要がある。
しかし、既存の手法は複雑なシナリオにおいて環境情報と指示を一致させることができないことが多く、その理由の一つとして常識的推論能力の欠如が挙げられる。
本稿では,ナビゲーションを支援する外部知識ベースを導入したランドマーク誘導知識(LGK)と呼ばれる視覚・言語ナビゲーション手法を提案する。
具体的には、まず、630,000の言語記述を含む知識ベースを構築し、環境サブビューを知識ベースと整合させ、関連する記述的知識を抽出する。
次に、ランドマーク(KGL)機構を設計し、エージェントが指示のランドマーク情報を活用することにより、最も関連性の高い知識に焦点を合わせるように誘導し、外部知識を取り入れることから生じる可能性のあるデータのバイアスを低減する。
最後に,言語,知識,視覚,歴史情報を効果的に統合した知識誘導動的拡張(KGDA)を提案する。
実験の結果、LGK法は既存のR2RとREVERIEのナビゲーションデータセット、特にナビゲーションエラー、成功率、パス効率において、既存の最先端手法よりも優れていることが示された。
関連論文リスト
- Guided Navigation in Knowledge-Dense Environments: Structured Semantic Exploration with Guidance Graphs [21.84798899012135]
本稿では,非構造化クエリと構造化知識検索をブリッジする中間ガイダンスグラフを導入する新しいフレームワークを提案する。
Guidance Graphは、対象の知識の構造を抽象化し、より広い意味的コンテキストを保存することで、検索空間を定義する。
提案手法は,特に複雑なタスクにおいて,SOTAよりも優れた効率と性能を実現する。
論文 参考訳(メタデータ) (2025-08-06T08:47:57Z) - SAME: Learning Generic Language-Guided Visual Navigation with State-Adaptive Mixture of Experts [54.11162991206203]
本稿では,多様なナビゲーションタスクを統一的で汎用的なフレームワークに統合する。
本稿では,エージェントによる意思決定の推論を効果的に行うことのできる,新しい状態適応型エキスパート混合モデルを提案する。
論文 参考訳(メタデータ) (2024-12-07T06:12:53Z) - Augmented Commonsense Knowledge for Remote Object Grounding [67.30864498454805]
エージェントナビゲーションを改善するための時間的知識グラフとして,コモンセンス情報を活用するための拡張コモンセンス知識モデル(ACK)を提案する。
ACKは知識グラフ対応のクロスモーダルとコンセプトアグリゲーションモジュールで構成され、視覚的表現と視覚的テキストデータアライメントを強化する。
我々は、より正確な局所的な行動予測につながるコモンセンスに基づく意思決定プロセスのための新しいパイプラインを追加します。
論文 参考訳(メタデータ) (2024-06-03T12:12:33Z) - TINA: Think, Interaction, and Action Framework for Zero-Shot Vision Language Navigation [11.591176410027224]
本稿では,Large Language Models(LLM)に基づく視覚言語ナビゲーション(VLN)エージェントを提案する。
環境認識におけるLLMの欠点を補うための思考・相互作用・行動の枠組みを提案する。
また,本手法は教師付き学習手法よりも優れ,ゼロショットナビゲーションの有効性を強調した。
論文 参考訳(メタデータ) (2024-03-13T05:22:39Z) - KERM: Knowledge Enhanced Reasoning for Vision-and-Language Navigation [61.08389704326803]
VLN(Vision-and-Language Navigation)は、実シーンにおける自然言語命令に続く遠隔地への移動を可能にするタスクである。
以前のアプローチのほとんどは、ナビゲート可能な候補を表現するために、機能全体やオブジェクト中心の機能を利用している。
本稿では,知識を活用したエージェントナビゲーション能力向上のための知識強化推論モデル(KERM)を提案する。
論文 参考訳(メタデータ) (2023-03-28T08:00:46Z) - Knowledge Graph Augmented Network Towards Multiview Representation
Learning for Aspect-based Sentiment Analysis [96.53859361560505]
本稿では,知識グラフ拡張ネットワーク(KGAN)を提案する。
KGANは感情の特徴表現を、文脈、構文、知識に基づく複数の視点から捉えている。
3つの人気のあるABSAベンチマークの実験は、我々のKGANの有効性と堅牢性を示している。
論文 参考訳(メタデータ) (2022-01-13T08:25:53Z) - Deep Learning for Embodied Vision Navigation: A Survey [108.13766213265069]
身体的視覚ナビゲーション」問題では、エージェントが3D環境をナビゲートする必要がある。
本稿では、総合的な文献調査を提供することで、視覚ナビゲーションの具体的分野における現在の研究の概要を確立することを試みる。
論文 参考訳(メタデータ) (2021-07-07T12:09:04Z) - Contextualized Knowledge-aware Attentive Neural Network: Enhancing
Answer Selection with Knowledge [77.77684299758494]
ナレッジグラフ(KG)による外部知識による回答選択モデル向上のアプローチを幅広く検討しています。
まず、KGの外部知識とテキスト情報との密接な相互作用を考慮し、QA文表現を学習するコンテキスト知識相互作用学習フレームワークであるナレッジアウェアニューラルネットワーク(KNN)を紹介します。
KG情報の多様性と複雑性に対処するために, カスタマイズされたグラフ畳み込みネットワーク (GCN) を介して構造情報を用いた知識表現学習を改善し, コンテキストベースおよび知識ベースの文表現を総合的に学習する コンテキスト型知識認識型アテンシブニューラルネットワーク (CKANN) を提案する。
論文 参考訳(メタデータ) (2021-04-12T05:52:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。