論文の概要: LCLA: Language-Conditioned Latent Alignment for Vision-Language Navigation
- arxiv url: http://arxiv.org/abs/2602.07629v2
- Date: Tue, 10 Feb 2026 02:40:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.256363
- Title: LCLA: Language-Conditioned Latent Alignment for Vision-Language Navigation
- Title(参考訳): LCLA:視覚言語ナビゲーションのための言語記述型潜在アライメント
- Authors: Nitesh Subedi, Adam Haroon, Samuel Tetteh, Prajwal Koirala, Cody Fleming, Soumik Sarkar,
- Abstract要約: LCLAは視覚言語ナビゲーションのためのフレームワークであり、感覚観察を専門家ポリシーの潜在表現に整合させることで、モジュラー認識インタフェースを学習する。
ライトウェイトアダプターは、凍結した視覚言語モデルを介して生の視覚言語観測を専門家の潜伏空間にマッピングするように訓練される。
このデカップリングは、知覚と制御の間の安定した契約を強制し、知覚のモダリティと環境変動をまたいで専門家の振る舞いを再利用することを可能にする。
- 参考スコア(独自算出の注目度): 5.546897861128453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose LCLA (Language-Conditioned Latent Alignment), a framework for vision-language navigation that learns modular perception-action interfaces by aligning sensory observations to a latent representation of an expert policy. The expert is first trained with privileged state information, inducing a latent space sufficient for control, after which its latent interface and action head are frozen. A lightweight adapter is then trained to map raw visual-language observations, via a frozen vision-language model, into the expert's latent space, reducing the problem of visuomotor learning to supervised latent alignment rather than end-to-end policy optimization. This decoupling enforces a stable contract between perception and control, enabling expert behavior to be reused across sensing modalities and environmental variations. We instantiate LCLA and evaluate it on a vision-language indoor navigation task, where aligned latent spaces yield strong in-distribution performance and robust zero-shot generalization to unseen environments, lighting conditions, and viewpoints while remaining lightweight at inference time.
- Abstract(参考訳): LCLA(Language-Conditioned Latent Alignment)は,視覚言語ナビゲーションのためのフレームワークで,知覚的観察を専門ポリシーの潜在表現に整合させることで,モジュール型知覚インタフェースを学習する。
エキスパートはまず特権状態情報で訓練され、制御に十分な潜伏空間を誘導し、その後、潜伏インターフェースとアクションヘッドが凍結される。
軽量なアダプタは、凍結した視覚言語モデルを介して生の視覚言語観測を専門家の潜伏空間にマッピングするように訓練される。
このデカップリングは、知覚と制御の間の安定した契約を強制し、知覚のモダリティと環境変動をまたいで専門家の振る舞いを再利用することを可能にする。
我々はLCLAをインスタンス化し、視覚言語による屋内ナビゲーションタスクで評価する。このタスクでは、アライメントされた潜在空間は、推論時に軽量でありながら、目に見えない環境、照明条件、視点に強い分配性能とロバストなゼロショットの一般化をもたらす。
関連論文リスト
- SAMoE-VLA: A Scene Adaptive Mixture-of-Experts Vision-Language-Action Model for Autonomous Driving [10.980525810871827]
本稿では,シーン適応型視覚ランゲージ・アクション・フレームワークであるSAMoE-VLAを提案する。
私たちのキーとなるアイデアは、交通シーンのコンテキストをカプセル化した鳥眼視(BEV)機能からMoEルーティング信号を導き出すことです。
本研究では,世界認知,知覚,言語,行動の時間的一貫した推論を支援するために,条件付きクロスモーダル因果注意機構を導入する。
論文 参考訳(メタデータ) (2026-03-09T08:54:03Z) - ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - Seeing to Act, Prompting to Specify: A Bayesian Factorization of Vision Language Action Policy [59.44168425139687]
BayesVLA(ベイズVLA)は、前もってポリシーを視覚的アクションに分解し、ルック・トゥ・アクティベーションと言語条件付き可能性をサポートし、即時特定を可能にするベイズ因子化である。
実験は、既存の方法と比較して、目に見えない命令、オブジェクト、環境に対して優れた一般化を示す。
論文 参考訳(メタデータ) (2025-12-12T01:59:23Z) - Conscious Gaze: Adaptive Attention Mechanisms for Hallucination Mitigation in Vision-Language Models [2.5597374953396126]
本稿では,ゲーム理論の解釈可能性を動作可能な復号制御に変換する,学習不要な推論時間フレームワークを提案する。
Harsanyiインタラクション上に構築された認知デマンドセンサは、瞬時に視覚テキストのシナジーを推定する。
Focused Consensus 誘導モジュールは、テキスト先行に崩壊する前に、中間層注意を視覚トークンに選択的に向ける。
論文 参考訳(メタデータ) (2025-12-05T09:07:55Z) - GLip: A Global-Local Integrated Progressive Framework for Robust Visual Speech Recognition [72.29071664964633]
我々は、ロバストな視覚音声認識(VSR)のために設計されたグローバルローカル統合プログレッシブフレームワークGLipを提案する。
GLipは、グローバルな視覚的特徴とローカルな視覚的特徴の両方を、容易にアクセス可能な音声視覚データを用いて対応する音声音声単位に整合させることを学ぶ。
第2段階では、ローカル機能を関連するグローバルコンテキストと動的に統合するコンテキスト拡張モジュール(CEM)を導入します。
論文 参考訳(メタデータ) (2025-09-19T14:36:01Z) - Kefa: A Knowledge Enhanced and Fine-grained Aligned Speaker for
Navigation Instruction Generation [70.76686546473994]
ナビゲーション命令生成のための新しい話者モデルtextscKefaを提案する。
提案したKEFA話者は,屋内および屋外の両方で最先端の指示生成性能を実現する。
論文 参考訳(メタデータ) (2023-07-25T09:39:59Z) - Actional Atomic-Concept Learning for Demystifying Vision-Language Navigation [124.07372905781696]
行動原子概念学習(Actical Atomic-Concept Learning, ACL)は、視覚的な観察を行動原子の概念にマッピングしてアライメントを促進する。
AACLは、細粒度(R2R)と高レベル(REVERIEとR2R-Last)のVLNベンチマークで新しい最先端結果を確立する。
論文 参考訳(メタデータ) (2023-02-13T03:08:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。