論文の概要: Instruction-as-State: Environment-Guided and State-Conditioned Semantic Understanding for Embodied Navigation
- arxiv url: http://arxiv.org/abs/2604.18223v1
- Date: Mon, 20 Apr 2026 13:09:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.884587
- Title: Instruction-as-State: Environment-Guided and State-Conditioned Semantic Understanding for Embodied Navigation
- Title(参考訳): インストラクション・アズ・ステート: 身体ナビゲーションのための環境ガイドと状態規定セマンティック理解
- Authors: Zhen Liu, Yuhan Liu, Jinjun Wang, Jianyi Liu, Wei Song, Jingwen Fu,
- Abstract要約: S-EGIU(State-Entangled Environment-Guided Instruction Understanding)を紹介する。
S-EGIUは、エージェントの知覚状態に基づいて段階的に進化する決定関連トークンレベルの命令状態である。
これは、REVERIE Test Unseenで+2.68%のSPLゲインを含む、いくつかの主要なメトリクスで強力なパフォーマンスを提供する。
- 参考スコア(独自算出の注目度): 38.77209165510599
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-Language Navigation requires agents to follow natural-language instructions in visually changing environments. A central challenge is the dynamic entanglement between language and observations: the meaning of instruction shifts as the agent's field of view and spatial context evolve. However, many existing models encode the instruction as a static global representation, limiting their ability to adapt instruction meaning to the current visual context. We therefore model instruction understanding as an Instruction-as-State variable: a decision-relevant, token-level instruction state that evolves step by step conditioned on the agent's perceptual state, where the perceptual state denotes the observation-grounded navigation context at each step. To realize this principle, we introduce State-Entangled Environment-Guided Instruction Understanding (S-EGIU), a coarse-to-fine framework for state-conditioned segment activation and token-level semantic refinement. At the coarse level, S-EGIU activates the instruction segment whose semantics align with the current observation. At the fine level, it refines the activated segment through observation-guided token grounding and contextual modeling, sharpening its internal semantics under the current observation. Together, these stages maintain an instruction state that is continuously updated according to the agent's perceptual state during navigation. S-EGIU delivers strong performance on several key metrics, including a +2.68% SPL gain on REVERIE Test Unseen, and demonstrates consistent efficiency gains across multiple VLN benchmarks, underscoring the value of dynamic instruction--perception entanglement.
- Abstract(参考訳): 視覚と言語ナビゲーションでは、エージェントは視覚的に変化する環境において自然言語の指示に従う必要がある。
中心的な課題は言語と観察のダイナミックな絡み合いであり、エージェントの視野と空間的文脈が進化するにつれて、指示の意味が変化していく。
しかし、多くの既存モデルは命令を静的なグローバル表現としてエンコードし、命令の意味を現在の視覚的コンテキストに適応させる能力を制限する。
そこで我々は,命令理解をインストラクション・アズ・ステート(Instruction-as-State)変数としてモデル化する: エージェントの知覚状態に基づいて段階的に進化する決定関連トークンレベルの命令状態。
この原則を実現するために、ステートコンディショニングされたセグメントアクティベーションとトークンレベルのセマンティックリファインメントのための粗大なフレームワークであるState-Entangled Environment-Guided Instruction Understanding (S-EGIU)を導入する。
粗いレベルでは、S-EGIUは、現在の観察とセマンティクスが一致した命令セグメントを起動する。
微細なレベルでは、観測誘導トークンの接地と文脈モデリングによって活性化セグメントを洗練し、現在の観測下での内部意味を鋭くする。
これらの段階は、ナビゲーション中にエージェントの知覚状態に応じて継続的に更新される命令状態を保持する。
S-EGIUはREVERIE Test Unseenで+2.68%のSPLゲインを達成し、複数のVLNベンチマークで一貫した効率向上を示し、動的命令-パーセプションの絡み合いの価値を強調している。
関連論文リスト
- Language-Grounded Decoupled Action Representation for Robotic Manipulation [78.42228162226839]
認識と制御を結びつけるために,Language-Grounded Decoupled Action Representation (LaDA) フレームワークを提案する。
LaDAは3つの解釈可能なアクションプリミティブ(翻訳、回転、グリップ制御)の微細な中間層を導入し、低レベルのアクションに対して明示的な意味構造を提供する。
さらに、セマンティックガイダンスによるソフトラベルのコントラスト学習の目的を用いて、類似のアクションプリミティブをタスク間で整列させ、一般化と動きの整合性を高める。
論文 参考訳(メタデータ) (2026-03-13T13:08:26Z) - \textsc{NaVIDA}: Vision-Language Navigation with Inverse Dynamics Augmentation [50.027425808733994]
textscNaVIDAは、ポリシー学習とアクショングラウンドの視覚力学と適応実行を結合した統合VLNフレームワークである。
textscNaVIDAは、チャンクベースの逆ダイナミクスによるトレーニングを強化し、視覚変化と対応するアクションの因果関係を学習する。
実験の結果,textscNaVIDAはパラメータが少ない最先端の手法に比べてナビゲーション性能が優れていることがわかった。
論文 参考訳(メタデータ) (2026-01-26T06:16:17Z) - Breaking Down and Building Up: Mixture of Skill-Based Vision-and-Language Navigation Agents [43.5771856761934]
VLN(Vision-and-Language Navigation)は、自然言語命令を解釈し、複雑な3D環境をナビゲートするエージェントにとって大きな課題となる。
トランスフォーマーベースのVLNエージェントに構造化されたスキルベースの推論を導入するモジュラーフレームワークであるSkillNavを提案する。
論文 参考訳(メタデータ) (2025-08-11T05:50:30Z) - Actional Atomic-Concept Learning for Demystifying Vision-Language Navigation [124.07372905781696]
行動原子概念学習(Actical Atomic-Concept Learning, ACL)は、視覚的な観察を行動原子の概念にマッピングしてアライメントを促進する。
AACLは、細粒度(R2R)と高レベル(REVERIEとR2R-Last)のVLNベンチマークで新しい最先端結果を確立する。
論文 参考訳(メタデータ) (2023-02-13T03:08:05Z) - Graph based Environment Representation for Vision-and-Language
Navigation in Continuous Environments [20.114506226598508]
VLN-CE(Vision-and-Language Navigation in Continuous Environments)は、エージェントが現実的な環境で言語命令に従う必要があるナビゲーションタスクである。
上記の問題を解決するために,新しい環境表現を提案する。
論文 参考訳(メタデータ) (2023-01-11T08:04:18Z) - Contrastive Instruction-Trajectory Learning for Vision-Language
Navigation [66.16980504844233]
視覚言語ナビゲーション(VLN)タスクでは、エージェントが自然言語の指示でターゲットに到達する必要がある。
先行研究は、命令-軌道対間の類似点と相違点を識別できず、サブ命令の時間的連続性を無視する。
本稿では、類似したデータサンプル間の分散と、異なるデータサンプル間の分散を探索し、ロバストなナビゲーションのための独特な表現を学習するContrastive Instruction-Trajectory Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-08T06:32:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。