論文の概要: JanusVLN: Decoupling Semantics and Spatiality with Dual Implicit Memory for Vision-Language Navigation
- arxiv url: http://arxiv.org/abs/2509.22548v1
- Date: Fri, 26 Sep 2025 16:29:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.582194
- Title: JanusVLN: Decoupling Semantics and Spatiality with Dual Implicit Memory for Vision-Language Navigation
- Title(参考訳): JanusVLN:視覚言語ナビゲーションのための二重命令メモリによる意味と空間性の分離
- Authors: Shuang Zeng, Dekang Qi, Xinyuan Chang, Feng Xiong, Shichao Xie, Xiaolong Wu, Shiyi Liang, Mu Xu, Xing Wei,
- Abstract要約: Vision-and-Language Navigationでは、自然言語命令と連続的なビデオストリームによってガイドされた、目に見えない環境をナビゲートするために、エンボディエージェントが必要である。
VLNの最近の進歩は、マルチモーダル大規模言語モデルの強力な意味理解によって推進されている。
本稿では,空間幾何学的,視覚的セマンティックメモリを分離,コンパクト,固定サイズのニューラル表現としてモデル化した,二重暗黙的ニューラルメモリを備えた新しいVLNフレームワークであるJanusVLNを提案する。
- 参考スコア(独自算出の注目度): 22.956416709470503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-Language Navigation requires an embodied agent to navigate through unseen environments, guided by natural language instructions and a continuous video stream. Recent advances in VLN have been driven by the powerful semantic understanding of Multimodal Large Language Models. However, these methods typically rely on explicit semantic memory, such as building textual cognitive maps or storing historical visual frames. This type of method suffers from spatial information loss, computational redundancy, and memory bloat, which impede efficient navigation. Inspired by the implicit scene representation in human navigation, analogous to the left brain's semantic understanding and the right brain's spatial cognition, we propose JanusVLN, a novel VLN framework featuring a dual implicit neural memory that models spatial-geometric and visual-semantic memory as separate, compact, and fixed-size neural representations. This framework first extends the MLLM to incorporate 3D prior knowledge from the spatial-geometric encoder, thereby enhancing the spatial reasoning capabilities of models based solely on RGB input. Then, the historical key-value caches from the spatial-geometric and visual-semantic encoders are constructed into a dual implicit memory. By retaining only the KVs of tokens in the initial and sliding window, redundant computation is avoided, enabling efficient incremental updates. Extensive experiments demonstrate that JanusVLN outperforms over 20 recent methods to achieve SOTA performance. For example, the success rate improves by 10.5-35.5 compared to methods using multiple data types as input and by 3.6-10.8 compared to methods using more RGB training data. This indicates that the proposed dual implicit neural memory, as a novel paradigm, explores promising new directions for future VLN research. Ours project page: https://miv-xjtu.github.io/JanusVLN.github.io/.
- Abstract(参考訳): Vision-and-Language Navigationでは、自然言語命令と連続的なビデオストリームによってガイドされた、目に見えない環境をナビゲートするために、エンボディエージェントが必要である。
VLNの最近の進歩は、マルチモーダル大規模言語モデルの強力な意味理解によって推進されている。
しかし、これらの手法は典型的には、テキスト認知地図の作成や歴史的視覚フレームの保存など、明示的なセマンティックメモリに依存している。
この種の手法は、空間情報損失、計算冗長性、メモリ肥大に悩まされ、効率的なナビゲーションを阻害する。
人間のナビゲーションにおける暗黙のシーン表現と、左脳のセマンティック理解と右脳の空間認知に類似した、暗黙のシーン表現に触発され、空間幾何学的、視覚的セマンティックメモリを分離、コンパクト、固定サイズのニューラル表現としてモデル化した、二重の暗黙的なニューラルメモリを特徴とする新しいVLNフレームワークであるJanusVLNを提案する。
このフレームワークはまずMLLMを拡張し、空間幾何学エンコーダからの3D事前知識を取り入れ、RGB入力のみに基づくモデルの空間推論能力を向上する。
次に、空間幾何学的および視覚意味論的エンコーダからの履歴キー値キャッシュを二重暗黙メモリに構成する。
初期およびスライディングウィンドウにトークンのKVだけを保持することで、冗長な計算を回避し、効率的なインクリメンタルアップデートを可能にする。
大規模な実験により、JanusVLNはSOTA性能を達成するために20以上の新しい手法より優れていることが示された。
例えば、成功率は入力として複数のデータ型を使用する方法と比較して10.5-35.5、RGBのトレーニングデータを使用する方法に比べて3.6-10.8である。
これは、新しいパラダイムとして提案された二重暗黙的ニューラルメモリが、将来的なVLN研究の新たな方向性を探求していることを示している。
私たちのプロジェクトページは、https://miv-xjtu.github.io/JanusVLN.github.io/です。
関連論文リスト
- Mem4Nav: Boosting Vision-and-Language Navigation in Urban Environments with a Hierarchical Spatial-Cognition Long-Short Memory System [8.629870144131248]
大規模都市環境における視覚・言語ナビゲーション (VLN) は、複雑な場面で言語指導を行うための具体的エージェントを必要とする。
階層型空間認識長短メモリシステムである textbfMem4Nav を導入し,任意のVLNバックボーンを拡張できる。
論文 参考訳(メタデータ) (2025-06-24T09:00:43Z) - NeuraLoc: Visual Localization in Neural Implicit Map with Dual Complementary Features [50.212836834889146]
本稿では,補完的な特徴を持つニューラル暗黙マップに基づく,効率的で斬新な視覚的局所化手法を提案する。
具体的には、幾何学的制約を強制し、ストレージ要件を小さくするために、3Dキーポイント記述子フィールドを暗黙的に学習する。
記述子の意味的あいまいさにさらに対処するために、追加の意味的文脈的特徴体を導入する。
論文 参考訳(メタデータ) (2025-03-08T08:04:27Z) - Language Driven Occupancy Prediction [13.35971455725581]
オープン語彙占有予測のための効果的で一般化可能なフレームワークであるLOccを紹介する。
私たちのパイプラインは、画像の貴重な意味情報を掘り下げ、画像からテキストラベルをLiDARポイントクラウドに、最終的にはボクセルに転送する、実現可能な方法を提供します。
教師付き占有モデルの当初の予測ヘッドを二進的占有状態のための幾何学ヘッドと言語特徴のための言語ヘッドに置き換えることで、LOccは生成された言語基底真実を効果的に利用して、3D言語ボリュームの学習をガイドする。
論文 参考訳(メタデータ) (2024-11-25T03:47:10Z) - Memory-Space Visual Prompting for Efficient Vision-Language Fine-Tuning [59.13366859237086]
大規模視覚言語(VL)モデルを効率的に構築するための現在のソリューションは、2段階のパラダイムに従う。
視覚情報に関連するタスクに対処する際の言語モデルを容易にする追加知識として視覚的プロンプトを考察する。
本稿では,視覚的知識注入のためのFFNの重み付けにより視覚的プロンプトを記憶する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-09T08:23:20Z) - Simple linear attention language models balance the recall-throughput tradeoff [60.06020449520365]
線形およびすべり窓の注意を結合したシンプルなアーキテクチャであるBASEDを提案する。
我々は、最大1.3bパラメータの言語モデルをトレーニングし、BASEDがパープレキシティにおいて最強のサブクワッドラティックモデルと一致し、実世界のリコール集約タスクにおいて6.22の精度ポイントでそれらのモデルを上回っていることを示す。
論文 参考訳(メタデータ) (2024-02-28T19:28:27Z) - In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。
ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文 参考訳(メタデータ) (2023-07-13T17:59:21Z) - Multimodal Transformer with Variable-length Memory for
Vision-and-Language Navigation [79.1669476932147]
VLN(Vision-and-Language Navigation)は、エージェントが目標位置に向かうために言語命令に従う必要があるタスクである。
近年のTransformer-based VLN法は,視覚的観察と言語指導の直接的な結びつきから大きな進歩を遂げている。
視覚的な自然言語ナビゲーションのための可変長メモリ(MTVM)を備えたマルチモーダルトランス (Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2021-11-10T16:04:49Z) - Robust High-dimensional Memory-augmented Neural Networks [13.82206983716435]
メモリ拡張ニューラルネットワークは、これらの問題を克服するために、明示的なメモリでニューラルネットワークを強化する。
この明示的なメモリへのアクセスは、各個々のメモリエントリを含むソフト読み取りおよび書き込み操作を介して行われる。
本稿では,高次元(HD)ベクトル上でのアナログインメモリ計算を行う明示メモリとして,計算メモリユニットを用いた頑健なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-10-05T12:01:56Z) - MANTRA: Memory Augmented Networks for Multiple Trajectory Prediction [26.151761714896118]
メモリ拡張ニューラルネットワークを用いたマルチモーダル軌道予測の問題に対処する。
提案手法は、繰り返しニューラルネットワークを用いて過去と将来の軌道埋め込みを学習し、関連性のある外部メモリを活用して、そのような埋め込みを保存・取得する。
次に、観測過去の条件付きメモリ内未来の符号化を復号して軌道予測を行う。
論文 参考訳(メタデータ) (2020-06-05T09:49:59Z) - Sparse Graphical Memory for Robust Planning [93.39298821537197]
スパースメモリに状態と実現可能な遷移を格納する新しいデータ構造であるスパースグラフィカルメモリ(SGM)を導入する。
SGMは、ゴール条件付きRLに古典的状態集約基準を適用し、新しい双方向整合目標に従って状態を集約する。
本研究では, SGM が, 遠近法, スパース・リワード視覚ナビゲーションタスクにおいて, 最先端の工法を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-03-13T17:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。