論文の概要: GC-VLN: Instruction as Graph Constraints for Training-free Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2509.10454v1
- Date: Fri, 12 Sep 2025 17:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:08.197931
- Title: GC-VLN: Instruction as Graph Constraints for Training-free Vision-and-Language Navigation
- Title(参考訳): GC-VLN:フリービジョン・ランゲージナビゲーションのためのグラフ制約としての教育
- Authors: Hang Yin, Haoyu Wei, Xiuwei Xu, Wenxuan Guo, Jie Zhou, Jiwen Lu,
- Abstract要約: 視覚・言語ナビゲーション(VLN)のための学習自由フレームワークを提案する。
本フレームワークは,指示を明示的な空間的制約に分解することで,グラフ制約最適化としてナビゲーションガイダンスを定式化する。
我々のフレームワークは、新しい環境や命令セットに効果的に一般化することができ、より堅牢で自律的なナビゲーションフレームワークへの道を開くことができる。
- 参考スコア(独自算出の注目度): 61.34589819350429
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a training-free framework for vision-and-language navigation (VLN). Existing zero-shot VLN methods are mainly designed for discrete environments or involve unsupervised training in continuous simulator environments, which makes it challenging to generalize and deploy them in real-world scenarios. To achieve a training-free framework in continuous environments, our framework formulates navigation guidance as graph constraint optimization by decomposing instructions into explicit spatial constraints. The constraint-driven paradigm decodes spatial semantics through constraint solving, enabling zero-shot adaptation to unseen environments. Specifically, we construct a spatial constraint library covering all types of spatial relationship mentioned in VLN instructions. The human instruction is decomposed into a directed acyclic graph, with waypoint nodes, object nodes and edges, which are used as queries to retrieve the library to build the graph constraints. The graph constraint optimization is solved by the constraint solver to determine the positions of waypoints, obtaining the robot's navigation path and final goal. To handle cases of no solution or multiple solutions, we construct a navigation tree and the backtracking mechanism. Extensive experiments on standard benchmarks demonstrate significant improvements in success rate and navigation efficiency compared to state-of-the-art zero-shot VLN methods. We further conduct real-world experiments to show that our framework can effectively generalize to new environments and instruction sets, paving the way for a more robust and autonomous navigation framework.
- Abstract(参考訳): 本稿では,視覚・言語ナビゲーション(VLN)のための学習自由フレームワークを提案する。
既存のゼロショットVLN法は、主に個別の環境向けに設計されているか、連続シミュレータ環境で教師なしのトレーニングを伴っているため、現実のシナリオでそれらを一般化してデプロイすることは困難である。
連続環境下でのトレーニング不要なフレームワークを実現するため,我々のフレームワークは,指示を明示的な空間的制約に分解することで,ナビゲーションガイダンスをグラフ制約最適化として定式化する。
制約駆動のパラダイムは制約解決を通じて空間意味論をデコードし、目に見えない環境へのゼロショット適応を可能にする。
具体的には,VLN命令で言及される空間関係を網羅する空間制約ライブラリを構築する。
人間の命令は、方向付けられた非循環グラフに分解され、ウェイポイントノード、オブジェクトノード、エッジが、グラフ制約を構築するためにライブラリを検索するためにクエリとして使用される。
制約解法によりグラフ制約最適化を解き、ウェイポイントの位置を決定し、ロボットのナビゲーションパスと最終ゴールを得る。
解や複数解のケースに対処するため,ナビゲーションツリーとバックトラッキング機構を構築した。
標準ベンチマークでの大規模な実験は、最先端のゼロショットVLN法と比較して、成功率とナビゲーション効率が大幅に向上したことを示している。
我々はさらに実世界の実験を行い、我々のフレームワークが新しい環境や命令セットに効果的に一般化できることを示し、より堅牢で自律的なナビゲーションフレームワークへの道を開いた。
関連論文リスト
- VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。
本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文 参考訳(メタデータ) (2025-06-20T17:59:59Z) - Hierarchical Instruction-aware Embodied Visual Tracking [35.73851196966425]
User-Centric Embodied Visual Tracking (UC-EVT)は、強化学習に基づくモデルにおいて、新しい課題を提示している。
我々は,テキスト空間目標を仲介として利用する命令理解と行動生成を橋渡しする,テキストbfインストラクションを意識した身体的視覚追跡(HIEVT)エージェントを提案する。
論文 参考訳(メタデータ) (2025-05-27T04:36:26Z) - LOBSTUR: A Local Bootstrap Framework for Tuning Unsupervised Representations in Graph Neural Networks [0.9208007322096533]
グラフニューラルネットワーク(GNN)は、教師なし学習技術と組み合わせて強力なノード表現を学習するために、ますます利用されている。
教師なしグラフ表現学習におけるブートストラップ手法の適用を目的とした新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-20T19:59:35Z) - Without Paired Labeled Data: End-to-End Self-Supervised Learning for Drone-view Geo-Localization [2.733505168507872]
ドローンビュージオローカライゼーション(DVGL)は、GPSタグ付き衛星画像を取得することで、ドローンの正確なローカライゼーションを実現することを目的としている。
既存の手法は、教師あり学習のために、厳密にペアリングされたドローン衛星画像に大きく依存している。
浅いバックボーンネットワークを用いたエンドツーエンドの自己教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T02:53:08Z) - UnitedVLN: Generalizable Gaussian Splatting for Continuous Vision-Language Navigation [71.97405667493477]
我々は,UnitedVLNと呼ばれる,新しい汎用3DGSベースの事前学習パラダイムを導入する。
エージェントは、高忠実度360度ビジュアルイメージとセマンティック特徴を統一してレンダリングすることで、将来の環境をよりよく探索することができる。
UnitedVLNは既存のVLN-CEベンチマークで最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-11-25T02:44:59Z) - Towards Unified Token Learning for Vision-Language Tracking [65.96561538356315]
本稿では,VL追跡をトークン生成タスクとして用いた「textbfMMTrack」という,視覚言語(VL)追跡パイプラインを提案する。
提案フレームワークは,言語記述と境界ボックスを離散トークン列にシリアライズする。
この新しい設計パラダイムでは、全てのトークンクエリが望ましいターゲットを認識し、ターゲットの空間座標を直接予測するために必要となる。
論文 参考訳(メタデータ) (2023-08-27T13:17:34Z) - Optimal Solving of Constrained Path-Planning Problems with Graph
Convolutional Networks and Optimized Tree Search [12.457788665461312]
本稿では,機械学習モデルと最適解法を併用したハイブリッド問題解決プランナを提案する。
我々は現実的なシナリオで実験を行い、GCNのサポートにより、より難しい問題に対して、大幅なスピードアップとスムーズなスケーリングが可能になることを示す。
論文 参考訳(メタデータ) (2021-08-02T16:53:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。