論文の概要: VENTURA: Adapting Image Diffusion Models for Unified Task Conditioned Navigation
- arxiv url: http://arxiv.org/abs/2510.01388v1
- Date: Wed, 01 Oct 2025 19:21:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 14:32:17.235559
- Title: VENTURA: Adapting Image Diffusion Models for Unified Task Conditioned Navigation
- Title(参考訳): VENTURA:一元化タスク条件付きナビゲーションのための画像拡散モデルの適用
- Authors: Arthur Zhang, Xiangyun Meng, Luca Calliari, Dong-Ki Kim, Shayegan Omidshafiei, Joydeep Biswas, Ali Agha, Amirreza Shaban,
- Abstract要約: VENTURAは、インターネットに制約された画像拡散モデルを微調整して経路計画を行う視覚制御ナビゲーションシステムである。
軽量な行動閉鎖ポリシーは、これらの視覚計画を実行可能な軌道に置き、自然言語の指示に従うインターフェースを生成する。
大規模な実世界の評価において、VENTURAは、オブジェクト到達、障害物回避、地形優先タスクに基づく最先端の基盤モデルよりも優れている。
- 参考スコア(独自算出の注目度): 15.811034169990423
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Robots must adapt to diverse human instructions and operate safely in unstructured, open-world environments. Recent Vision-Language models (VLMs) offer strong priors for grounding language and perception, but remain difficult to steer for navigation due to differences in action spaces and pretraining objectives that hamper transferability to robotics tasks. Towards addressing this, we introduce VENTURA, a vision-language navigation system that finetunes internet-pretrained image diffusion models for path planning. Instead of directly predicting low-level actions, VENTURA generates a path mask (i.e. a visual plan) in image space that captures fine-grained, context-aware navigation behaviors. A lightweight behavior-cloning policy grounds these visual plans into executable trajectories, yielding an interface that follows natural language instructions to generate diverse robot behaviors. To scale training, we supervise on path masks derived from self-supervised tracking models paired with VLM-augmented captions, avoiding manual pixel-level annotation or highly engineered data collection setups. In extensive real-world evaluations, VENTURA outperforms state-of-the-art foundation model baselines on object reaching, obstacle avoidance, and terrain preference tasks, improving success rates by 33% and reducing collisions by 54% across both seen and unseen scenarios. Notably, we find that VENTURA generalizes to unseen combinations of distinct tasks, revealing emergent compositional capabilities. Videos, code, and additional materials: https://venturapath.github.io
- Abstract(参考訳): ロボットは多様な人間の指示に適応し、構造化されていないオープンワールド環境で安全に操作する必要がある。
近年のビジョン・ランゲージ・モデル(VLM)は、言語と知覚の基盤となる上で強力な先行性を提供するが、行動空間の違いやロボットのタスクへの伝達性を阻害する事前訓練目的のため、ナビゲーションを行うのが困難である。
この問題に対処するために,インターネットに制約された画像拡散モデルを用いて経路計画を行う視覚言語ナビゲーションシステムであるVENTURAを紹介する。
低レベルのアクションを直接予測する代わりに、VENTURAは画像空間内のパスマスク(つまり視覚的な計画)を生成し、細粒度でコンテキスト対応のナビゲーション動作をキャプチャする。
軽量な行動閉鎖ポリシーは、これらの視覚計画を実行可能な軌道に置き、様々なロボットの行動を生成するために自然言語の指示に従うインターフェースを生成する。
大規模トレーニングでは,VLM拡張キャプションと組み合わせた自己教師付きトラッキングモデルから導出されるパスマスクを監督し,手動ピクセルレベルのアノテーションや高度に設計されたデータ収集設定を回避する。
大規模な実世界の評価において、VENTURAは、オブジェクトリーチ、障害物回避、地形優先タスクのベースラインを上回り、成功率を33%改善し、見当たらないシナリオで衝突を54%削減する。
特に、VENTURAは、異なるタスクの見当たらない組み合わせを一般化し、創発的な構成能力を明らかにする。
ビデオ、コード、追加資料:https://venturapath.github.io
関連論文リスト
- Ground-level Viewpoint Vision-and-Language Navigation in Continuous Environments [10.953629652228024]
VLN(Vision-and-Language Navigation)エージェントは、時系列の視覚観察とそれに対応する指示を関連付け、意思決定を行う。
本稿では,人間中心の指示と低地視野の四足歩行ロボットとのミスマッチに対処する。
この問題を軽減するために,地上レベルの視点ナビゲーション(GVNav)手法を提案する。
論文 参考訳(メタデータ) (2025-02-26T10:30:40Z) - NavigateDiff: Visual Predictors are Zero-Shot Navigation Assistants [24.689242976554482]
慣れ親しんだ環境をナビゲートすることは、家庭用ロボットにとって大きな課題となる。
既存の強化学習手法は、直接新しい環境に移行することはできない。
我々は、事前学習された基礎モデルの論理知識と一般化能力をゼロショットナビゲーションに転送しようと試みる。
論文 参考訳(メタデータ) (2025-02-19T17:27:47Z) - Interactive Navigation in Environments with Traversable Obstacles Using
Large Language and Vision-Language Models [14.871309526022516]
本稿では,大規模言語と視覚言語を用いた対話型ナビゲーションフレームワークを提案する。
我々は、微調整なしで効果的な経路計画を行うためのアクション対応コストマップを作成する。
すべての実験結果から,提案フレームワークの有効性と多様な環境への適応性が確認された。
論文 参考訳(メタデータ) (2023-10-13T05:59:03Z) - Improving Vision-and-Language Navigation by Generating Future-View Image
Semantics [96.8435716885159]
VLN(Vision-and-Language Navigation)は、自然言語命令に基づいてエージェントが環境をナビゲートする必要があるタスクである。
エージェントのドメイン内事前トレーニングにおける3つのプロキシタスクを提案する: Masked Panorama Modeling (MPM)、 Masked Trajectory Modeling (MTM)、Action Prediction with Image Generation (APIG)。
次に、VLNタスク上のエージェントを補助的損失で微調整し、エージェントが生成するビューセマンティクスと次のステップのグラウンド真実ビューセマンティクスとの差を最小限に抑える。
論文 参考訳(メタデータ) (2023-04-11T00:36:02Z) - A New Path: Scaling Vision-and-Language Navigation with Synthetic
Instructions and Imitation Learning [70.14372215250535]
VLN(Vision-and-Language Navigation)の最近の研究は、RLエージェントを訓練して、フォトリアリスティックな環境で自然言語ナビゲーション命令を実行する。
人間の指導データが不足し、訓練環境の多様性が限られていることを考えると、これらのエージェントは複雑な言語基盤と空間言語理解に苦慮している。
我々は、密集した360度パノラマで捉えた500以上の屋内環境を取り、これらのパノラマを通して航法軌道を構築し、各軌道に対して視覚的に接地された指示を生成する。
4.2Mの命令-軌道対のデータセットは、既存の人間の注釈付きデータセットよりも2桁大きい。
論文 参考訳(メタデータ) (2022-10-06T17:59:08Z) - LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language,
Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。
本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文 参考訳(メタデータ) (2022-07-10T10:41:50Z) - Improving Target-driven Visual Navigation with Attention on 3D Spatial
Relationships [52.72020203771489]
3次元屋内シーンにおける深部強化学習(DRL)を用いた目標駆動型視覚ナビゲーションについて検討した。
提案手法は視覚特徴と3次元空間表現を組み合わせてナビゲーションポリシーを学習する。
AI2-THORで実施した我々の実験は、SRとSPLの指標において、モデルがベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2020-04-29T08:46:38Z) - Counterfactual Vision-and-Language Navigation via Adversarial Path Sampling [65.99956848461915]
VLN(Vision-and-Language Navigation)は、エージェントが目標を達成するために3D環境を移動する方法を決定するタスクである。
VLNタスクの問題点の1つは、対話型環境において、人間に注釈を付けた指示で十分なナビゲーションパスを収集することは困難であるため、データの不足である。
本稿では,低品質な拡張データではなく,効果的な条件を考慮可能な,対向駆動の反実的推論モデルを提案する。
論文 参考訳(メタデータ) (2019-11-17T18:02:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。