論文の概要: ComposableNav: Instruction-Following Navigation in Dynamic Environments via Composable Diffusion
- arxiv url: http://arxiv.org/abs/2509.17941v1
- Date: Mon, 22 Sep 2025 16:04:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.482072
- Title: ComposableNav: Instruction-Following Navigation in Dynamic Environments via Composable Diffusion
- Title(参考訳): ComposableNav: 構成可能拡散による動的環境における指示追従ナビゲーション
- Authors: Zichao Hu, Chen Tang, Michael J. Munje, Yifeng Zhu, Alex Liu, Shuijing Liu, Garrett Warnell, Peter Stone, Joydeep Biswas,
- Abstract要約: ロボットが指示に従って動的環境をナビゲートできるようにするためのComposableNavを提案する。
ComposableNavは各プリミティブを別々に学習し、デプロイ時に並列に構成し、トレーニングで見えない新しい仕様の組み合わせを満たす。
ComposableNavは,多様な仕様と見えない仕様の組み合わせを満たす軌道を生成することで,ロボットが指示に従うことができることを示す。
- 参考スコア(独自算出の注目度): 31.329993225029316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper considers the problem of enabling robots to navigate dynamic environments while following instructions. The challenge lies in the combinatorial nature of instruction specifications: each instruction can include multiple specifications, and the number of possible specification combinations grows exponentially as the robot's skill set expands. For example, "overtake the pedestrian while staying on the right side of the road" consists of two specifications: "overtake the pedestrian" and "walk on the right side of the road." To tackle this challenge, we propose ComposableNav, based on the intuition that following an instruction involves independently satisfying its constituent specifications, each corresponding to a distinct motion primitive. Using diffusion models, ComposableNav learns each primitive separately, then composes them in parallel at deployment time to satisfy novel combinations of specifications unseen in training. Additionally, to avoid the onerous need for demonstrations of individual motion primitives, we propose a two-stage training procedure: (1) supervised pre-training to learn a base diffusion model for dynamic navigation, and (2) reinforcement learning fine-tuning that molds the base model into different motion primitives. Through simulation and real-world experiments, we show that ComposableNav enables robots to follow instructions by generating trajectories that satisfy diverse and unseen combinations of specifications, significantly outperforming both non-compositional VLM-based policies and costmap composing baselines. Videos and additional materials can be found on the project page: https://amrl.cs.utexas.edu/ComposableNav/
- Abstract(参考訳): 本稿では,ロボットが指示に従って動的環境をナビゲートできるという課題について考察する。
それぞれの命令は複数の仕様を含むことができ、ロボットのスキルセットが拡大するにつれて、可能な仕様の組み合わせの数は指数関数的に増加する。
例えば、「道路の右側にいる間歩行者を追い越す」には、「歩行者を追い越す」と「道路の右側を歩く」の2つの仕様がある。
この課題に対処するために、我々は、命令に従うと、それぞれが独立したモーションプリミティブに対応する構成仕様を独立して満たすという直感に基づいて、ComposableNavを提案する。
拡散モデルを使用して、ComposableNavは各プリミティブを別々に学習し、デプロイ時に並列に構成し、トレーニングで見えない新しい仕様の組み合わせを満たす。
さらに,個別の動作プリミティブのデモンストレーションの煩雑さを避けるため,(1)動的ナビゲーションのためのベース拡散モデル学習のための教師付き事前学習,(2)基本モデルを異なる動作プリミティブに成形する強化学習ファインタニングという2段階の訓練手順を提案する。
シミュレーションと実世界の実験により、ComposableNavは、多種多様な仕様の組み合わせを満足する軌道を生成することで、ロボットが指示に従うことを可能にすることを示し、非構成的VLMベースのポリシーとコストマップの構成基準の両方を著しく上回っている。
ビデオと追加資料はプロジェクトのページで見ることができる。
関連論文リスト
- OctoNav: Towards Generalist Embodied Navigation [36.062963913289316]
エンボディードナビゲーションは、エンボディードAIの幅広い追求の基盤の柱である。
本研究では,自由形指示に従う汎用ナビゲーションエージェントを提案する。
我々は,OctoNav-BenchとOctoNav-R1と呼ばれる大規模ベンチマークとそれに対応する手法を提案する。
論文 参考訳(メタデータ) (2025-06-11T15:15:17Z) - EvolveNav: Self-Improving Embodied Reasoning for LLM-Based Vision-Language Navigation [111.0993686148283]
本稿では,EvolveNavと呼ばれるビジョンランゲージナビゲーションを向上するための,新たなSElf-imbodied embodied reasoningフレームワークを提案する。
EvolveNav は,(1) 形式化された CoT ラベルを用いたモデルトレーニング,(2) 自己表現的ポストトライニング,(2) モデルが自己強化 CoT ラベルとして独自の推論出力で反復的にトレーニングされ,監督の多様性を高めるための,形式化された CoT ラベルによるモデルトレーニング,の2つの段階で構成されている。
論文 参考訳(メタデータ) (2025-06-02T11:28:32Z) - NavBench: A Unified Robotics Benchmark for Reinforcement Learning-Based Autonomous Navigation [16.554282855005766]
我々は、強化学習に基づくナビゲーションポリシーのトレーニングと評価のためのベンチマークであるNavBenchを紹介する。
我々のフレームワークはタスク定義を標準化し、異なるロボットが様々なナビゲーション課題に取り組むことを可能にする。
NavBenchはシミュレーションと実世界のデプロイメントの一貫性を確保することで、RLベースのナビゲーション戦略の開発を簡単にする。
論文 参考訳(メタデータ) (2025-05-20T15:48:23Z) - InstructNav: Zero-shot System for Generic Instruction Navigation in Unexplored Environment [5.43847693345519]
本研究では,汎用的な命令ナビゲーションシステムであるInstructNavを提案する。
InstructNavは、ナビゲーショントレーニングやビルド済みのマップを使わずに、さまざまな命令ナビゲーションタスクを最初に処理する。
InstructNavでは、R2R-CEタスクを初めてゼロショットで完了し、多くのタスク学習方法より優れています。
論文 参考訳(メタデータ) (2024-06-07T12:26:34Z) - $A^2$Nav: Action-Aware Zero-Shot Robot Navigation by Exploiting
Vision-and-Language Ability of Foundation Models [89.64729024399634]
本研究では,ゼロショット視覚言語ナビゲーション(ZS-VLN)の課題について検討する。
通常、命令は複雑な文法構造を持ち、しばしば様々な行動記述を含む。
これらのアクション要求を正しく理解し実行する方法は重要な問題であり、アノテーション付きデータがないため、さらに困難になる。
論文 参考訳(メタデータ) (2023-08-15T19:01:19Z) - Counterfactual Cycle-Consistent Learning for Instruction Following and
Generation in Vision-Language Navigation [172.15808300686584]
本稿では,2つのタスクを同時に学習し,それぞれのトレーニングを促進するために本質的な相関性を利用するアプローチについて述べる。
提案手法は,様々な追従モデルの性能を改善し,正確なナビゲーション命令を生成する。
論文 参考訳(メタデータ) (2022-03-30T18:15:26Z) - Contrastive Instruction-Trajectory Learning for Vision-Language
Navigation [66.16980504844233]
視覚言語ナビゲーション(VLN)タスクでは、エージェントが自然言語の指示でターゲットに到達する必要がある。
先行研究は、命令-軌道対間の類似点と相違点を識別できず、サブ命令の時間的連続性を無視する。
本稿では、類似したデータサンプル間の分散と、異なるデータサンプル間の分散を探索し、ロバストなナビゲーションのための独特な表現を学習するContrastive Instruction-Trajectory Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-08T06:32:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。