Fugu-MT 論文翻訳(概要): LatentPilot: Scene-Aware Vision-and-Language Navigation by Dreaming Ahead with Latent Visual Reasoning

論文の概要: LatentPilot: Scene-Aware Vision-and-Language Navigation by Dreaming Ahead with Latent Visual Reasoning

arxiv url: http://arxiv.org/abs/2603.29165v1
Date: Tue, 31 Mar 2026 02:21:59 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-01 15:25:03.044587
Title: LatentPilot: Scene-Aware Vision-and-Language Navigation by Dreaming Ahead with Latent Visual Reasoning
Title（参考訳）: LatentPilot:潜時視覚推論を用いたドリームアヘッドによる視覚・言語ナビゲーション
Authors: Haihong Hao, Lei Chen, Mingfei Han, Changlin Li, Dong An, Yuqiang Yang, Zhihui Li, Xiaojun Chang,
Abstract要約: LatentPilotは、トレーニング中の将来の観察を貴重なデータソースとして利用して、アクション条件付きビジュアルダイナミクスを学習する。そこで本稿では,フライホイール方式のトレーニング機構を提案する。これは,道路上の軌道を反復的に収集し,エージェントの行動分布に適合するようにモデルを再訓練する。 R2R-CE、RxR-CE、R2R-PEベンチマークの実験では新たなSOTA結果が得られた。
参考スコア（独自算出の注目度）: 51.969318585152116
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Existing vision-and-language navigation (VLN) models primarily reason over past and current visual observations, while largely ignoring the future visual dynamics induced by actions. As a result, they often lack an effective understanding of the causal relationship between actions and how the visual world changes, limiting robust decision-making. Humans, in contrast, can imagine the near future by leveraging action-dynamics causality, which improves both environmental understanding and navigation choices. Inspired by this capability, we propose LatentPilot, a new paradigm that exploits future observations during training as a valuable data source to learn action-conditioned visual dynamics, while requiring no access to future frames at inference. Concretely, we propose a flywheel-style training mechanism that iteratively collects on-policy trajectories and retrains the model to better match the agent's behavior distribution, with an expert takeover triggered when the agent deviates excessively. LatentPilot further learns visual latent tokens without explicit supervision; these latent tokens attend globally in a continuous latent space and are carried across steps, serving as both the current output and the next input, thereby enabling the agent to dream ahead and reason about how actions will affect subsequent observations. Experiments on R2R-CE, RxR-CE, and R2R-PE benchmarks achieve new SOTA results, and real-robot tests across diverse environments demonstrate LatentPilot's superior understanding of environment-action dynamics in scene. Project page:https://abdd.top/latentpilot/
Abstract（参考訳）: 既存のヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)モデルは、主に過去と現在の視覚的観察を理由としつつ、アクションによって引き起こされる未来の視覚力学を無視している。結果として、行動と視覚世界がどのように変化するかの因果関係についての効果的な理解が欠如し、堅牢な意思決定が制限される。対照的に、人間は行動力学の因果性を活用し、環境の理解とナビゲーションの選択肢を改善することによって、近い将来を想像することができる。この能力にインスパイアされたLatentPilotは、トレーニング中の将来の観察を貴重なデータソースとして活用し、アクション条件付き視覚力学を学習し、推論時に将来のフレームにアクセスする必要がない新しいパラダイムである。具体的には, エージェントが過度に逸脱した場合に, エージェントの行動分布をよりよく一致させるために, 繰り返し, モデルを再訓練するフライホイール方式のトレーニング機構を提案する。 latentPilotはさらに、明示的な監督なしに視覚的な潜伏トークンを学習する。これらの潜伏トークンは、連続的な潜伏空間で世界中に集まり、現在の出力と次の入力の両方として機能し、エージェントが先を夢見て、その後の観察にどう影響するかを判断する。 R2R-CE、RxR-CE、R2R-PEベンチマークの実験では新たなSOTA結果が得られた。プロジェクトページ:https://abdd.top/latentpilot/

関連論文リスト

FutureVLA: Joint Visuomotor Prediction for Vision-Language-Action Model [73.03346643967309]
我々は、効果的な共同運動予測モデルには、時間的連続性と視覚的条件による監督的疎結合の両方が必要であると論じる。 FutureVLAは、視覚情報と運動情報を最初に分離することで、関節振動子埋め込みを抽出するように設計されている。訓練後の段階において、我々は遅延埋め込みアライメント戦略を採用し、様々な下流VLAモデルによりこれらの時間的先行を内部化することができる。
論文参考訳（メタデータ） (2026-03-11T12:39:55Z)
ViThinker: Active Vision-Language Reasoning via Dynamic Perceptual Querying [15.728211622542267]
ViThinkerは、要求に応じて専門家による視覚的特徴を合成するきっかけとなる意思決定トークンを視覚言語モデルが自律的に生成することを可能にするフレームワークである。 ViThinkerは、トレーニング中に視覚専門家の能力を内部化し、外部ツールコールなしで推論中に生成的なメンタルシミュレーションを実行する。
論文参考訳（メタデータ） (2026-02-02T22:29:57Z)
\textsc{NaVIDA}: Vision-Language Navigation with Inverse Dynamics Augmentation [50.027425808733994]
textscNaVIDAは、ポリシー学習とアクショングラウンドの視覚力学と適応実行を結合した統合VLNフレームワークである。 textscNaVIDAは、チャンクベースの逆ダイナミクスによるトレーニングを強化し、視覚変化と対応するアクションの因果関係を学習する。実験の結果,textscNaVIDAはパラメータが少ない最先端の手法に比べてナビゲーション性能が優れていることがわかった。
論文参考訳（メタデータ） (2026-01-26T06:16:17Z)
Reimagination with Test-time Observation Interventions: Distractor-Robust World Model Predictions for Visual Model Predictive Control [51.14656121641822]
世界モデルは、現在の観測と計画された行動によって、ロボットが将来の観察を「想像」することができる。新たな視覚的障害は、行動結果の予測を破損させ、ロボットが計画や行動検証のために世界モデルの想像力に依存するとき、下流の障害を引き起こす可能性がある。本稿では、世界モデルによるより信頼性の高い行動結果の予測を可能にする簡易かつ効果的なテストタイム戦略であるReOI(Reimagination with Observation Intervention)を提案する。
論文参考訳（メタデータ） (2025-06-19T19:41:29Z)
TRACE: A Self-Improving Framework for Robot Behavior Forecasting with Vision-Language Models [1.3408365072149797]
反応剤の短期的挙動を予測することは、多くのロボットシナリオにおいて重要である。本稿では,ツリー・オブ・ソート・ジェネレーションとドメイン・アウェア・フィードバックを結合した推論フレームワークTRACEを提案する。我々は,地上車両シミュレーションと実世界海面車両の両面においてTRACEを検証した。
論文参考訳（メタデータ） (2025-03-02T06:58:02Z)
FIMP: Future Interaction Modeling for Multi-Agent Motion Prediction [18.10147252674138]
動作予測(FIMP)のための未来のインタラクションモデリングを提案し,その将来的なインタラクションをエンドツーエンドで捉える。実験により,今後のインタラクションモデリングにより性能が著しく向上し,Argoverseモーション予測ベンチマークの性能が向上することが示された。
論文参考訳（メタデータ） (2024-01-29T14:41:55Z)
Stochastic Coherence Over Attention Trajectory For Continuous Learning In Video Streams [64.82800502603138]
本稿では,映像ストリーム中のピクセルワイズ表現を段階的かつ自律的に開発するための,ニューラルネットワークに基づく新しいアプローチを提案する。提案手法は, 参加者の入場地を観察することで, エージェントが学習できる, 人間の様の注意機構に基づく。実験では,3次元仮想環境を利用して,映像ストリームを観察することで,エージェントが物体の識別を学べることを示す。
論文参考訳（メタデータ） (2022-04-26T09:52:31Z)
Knowledge Distillation for Action Anticipation via Label Smoothing [21.457069042129138]
視覚的観察や非言語的手がかりから未来を予測できる人間の能力は、インテリジェントなシステムを開発する上で不可欠である。我々は,長期記憶(LSTM)ネットワークに基づくマルチモーダルフレームワークを実装し,過去の観測を要約し,異なる時間ステップで予測を行う。実験により,ラベルの平滑化は動作予測のための最先端モデルの性能を体系的に向上することが示された。
論文参考訳（メタデータ） (2020-04-16T15:38:53Z)
Counterfactual Vision-and-Language Navigation via Adversarial Path Sampling [65.99956848461915]
VLN(Vision-and-Language Navigation)は、エージェントが目標を達成するために3D環境を移動する方法を決定するタスクである。 VLNタスクの問題点の1つは、対話型環境において、人間に注釈を付けた指示で十分なナビゲーションパスを収集することは困難であるため、データの不足である。本稿では,低品質な拡張データではなく,効果的な条件を考慮可能な,対向駆動の反実的推論モデルを提案する。
論文参考訳（メタデータ） (2019-11-17T18:02:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。