論文の概要: Beyond Textual Knowledge-Leveraging Multimodal Knowledge Bases for Enhancing Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2603.26859v1
- Date: Fri, 27 Mar 2026 15:25:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.669918
- Title: Beyond Textual Knowledge-Leveraging Multimodal Knowledge Bases for Enhancing Vision-and-Language Navigation
- Title(参考訳): ビジュアライズ・アンド・ランゲージナビゲーションのためのテキスト・ナレッジ・リーベリング・マルチモーダル・ナレッジ・ベースを超えて
- Authors: Dongsheng Yang, Yinfeng Yu, Liejun Wang,
- Abstract要約: VLN(Vision-and-Language Navigation)は、エージェントが複雑な見えない環境をナビゲートする必要がある。
我々は,環境固有のテキスト知識と生成画像知識ベースを統合するVLNフレームワークであるBeyond Textual Knowledge (BTK)を提案する。
- 参考スコア(独自算出の注目度): 20.499082957224925
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision-and-Language Navigation (VLN) requires an agent to navigate through complex unseen environments based on natural language instructions. However, existing methods often struggle to effectively capture key semantic cues and accurately align them with visual observations. To address this limitation, we propose Beyond Textual Knowledge (BTK), a VLN framework that synergistically integrates environment-specific textual knowledge with generative image knowledge bases. BTK employs Qwen3-4B to extract goal-related phrases and utilizes Flux-Schnell to construct two large-scale image knowledge bases: R2R-GP and REVERIE-GP. Additionally, we leverage BLIP-2 to construct a large-scale textual knowledge base derived from panoramic views, providing environment-specific semantic cues. These multimodal knowledge bases are effectively integrated via the Goal-Aware Augmentor and Knowledge Augmentor, significantly enhancing semantic grounding and cross-modal alignment. Extensive experiments on the R2R dataset with 7,189 trajectories and the REVERIE dataset with 21,702 instructions demonstrate that BTK significantly outperforms existing baselines. On the test unseen splits of R2R and REVERIE, SR increased by 5% and 2.07% respectively, and SPL increased by 4% and 3.69% respectively. The source code is available at https://github.com/yds3/IPM-BTK/.
- Abstract(参考訳): VLN(Vision-and-Language Navigation)は、エージェントが自然言語命令に基づいて複雑な見えない環境をナビゲートする必要がある。
しかし、既存の手法はしばしば重要な意味的手がかりを効果的に捉え、それらを視覚的な観察と正確に整合させるのに苦労する。
この制限に対処するために,環境固有のテキスト知識を生成的画像知識ベースと相乗的に統合するVLNフレームワークであるBeyond Textual Knowledge (BTK)を提案する。
BTKはQwen3-4Bを用いてゴール関連のフレーズを抽出し、Flux-Schnellを使ってR2R-GPとREVERIE-GPという2つの大規模な画像知識基盤を構築している。
さらに、BLIP-2を利用して、パノラマビューから派生した大規模テキスト知識ベースを構築し、環境固有の意味的手がかりを提供する。
これらのマルチモーダル知識ベースは、ゴール・アウェア・オーグメンタとナレッジ・オーグメンタを通じて効果的に統合され、セマンティックグラウンドとクロスモーダルアライメントを大幅に強化する。
7,189の軌道を持つR2Rデータセットと21,702の命令を持つREVERIEデータセットの大規模な実験は、BTKが既存のベースラインを大幅に上回っていることを示している。
R2RとREVERIEのテストでは、SRはそれぞれ5%、2.07%、SPLは4%、SPLは3.69%増加した。
ソースコードはhttps://github.com/yds3/IPM-BTK/で入手できる。
関連論文リスト
- Learning Efficient and Generalizable Graph Retriever for Knowledge-Graph Question Answering [75.12322966980003]
大規模言語モデル(LLM)は、様々な領域にわたって強い帰納的推論能力を示している。
既存のRAGパイプラインのほとんどは非構造化テキストに依存しており、解釈可能性と構造化推論を制限する。
近年,知識グラフ解答のための知識グラフとLLMの統合について検討している。
KGQAにおける効率的なグラフ検索のための新しいフレームワークであるRAPLを提案する。
論文 参考訳(メタデータ) (2025-06-11T12:03:52Z) - SSR: Enhancing Depth Perception in Vision-Language Models via Rationale-Guided Spatial Reasoning [48.64616652818972]
本稿では,生深度データを構造化・解釈可能なテキスト論理に変換する新しいフレームワークを提案する。
これらのテキストの有理は、空間的推論能力を著しく向上させる意味のある中間表現として機能する。
中間空間推論アノテーションを付加した100万スケールの視覚言語推論データセットであるSSR-CoTを提案する。
論文 参考訳(メタデータ) (2025-05-18T14:40:16Z) - Think-on-Graph 2.0: Deep and Faithful Large Language Model Reasoning with Knowledge-guided Retrieval Augmented Generation [14.448198170932226]
Think-on-Graph 2.0 (ToG-2) は、構造化されていない知識ソースと構造化されていない知識ソースの両方から情報を反復的に取得するハイブリッドRAGフレームワークである。
ToG-2は、グラフ検索とコンテキスト検索の交互に、質問に関連する詳細な手がかりを検索する。
GPT-3.5で7つの知識集約データセットのうち6つで、全体的なSOTA(State-of-the-art)のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-07-15T15:20:40Z) - LuoJiaHOG: A Hierarchy Oriented Geo-aware Image Caption Dataset for Remote Sensing Image-Text Retrival [8.656768875730904]
画像キャプションデータセットであるLuojiaHOGを導入する。
LuojiaHOGには階層的な空間サンプリング、Open Geospatial Consortium(OGC)標準への分類システム、詳細なキャプション生成が含まれる。
また,CLIPをベースとした画像セマンティックエンハンスメントネットワーク(CISEN)を提案する。
論文 参考訳(メタデータ) (2024-03-16T10:46:14Z) - Multimodal Dialog Systems with Dual Knowledge-enhanced Generative Pretrained Language Model [63.461030694700014]
マルチモーダルなタスク指向対話システム(DKMD)のための新しい二元的知識強化型事前学習言語モデルを提案する。
提案したDKMDは,2つの知識選択,2つの知識強調型文脈学習,知識強調型応答生成という3つの重要なコンポーネントから構成される。
パブリックデータセットの実験は、最先端の競合相手よりも提案されたDKMDの優位性を検証する。
論文 参考訳(メタデータ) (2022-07-16T13:02:54Z) - Bifurcated backbone strategy for RGB-D salient object detection [168.19708737906618]
我々は、RGB-Dの高次物体検出に固有のマルチモーダル・マルチレベルの性質を活用して、新しいカスケードリファインメントネットワークを考案する。
アーキテクチャは Bifurcated Backbone Strategy Network (BBS-Net) と呼ばれ、シンプルで効率的でバックボーンに依存しない。
論文 参考訳(メタデータ) (2020-07-06T13:01:30Z) - Multi-View Learning for Vision-and-Language Navigation [163.20410080001324]
EveryOne(LEO)から学ぶことは、視覚環境でのナビゲーションを学ぶためのトレーニングパラダイムです。
命令間でパラメータを共有することで、限られたトレーニングデータからより効果的に学習する。
最近のRoom-to-Room(R2R)ベンチマークデータセットでは、LEOはgreedyエージェントよりも16%改善(絶対)されている。
論文 参考訳(メタデータ) (2020-03-02T13:07:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。