論文の概要: Less Is More: Scalable Visual Navigation from Limited Data
- arxiv url: http://arxiv.org/abs/2601.17815v2
- Date: Fri, 06 Feb 2026 10:51:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.9434
- Title: Less Is More: Scalable Visual Navigation from Limited Data
- Title(参考訳): より少ない - 限られたデータからのスケーラブルなビジュアルナビゲーション
- Authors: Yves Inglin, Jonas Frey, Changan Chen, Marco Hutter,
- Abstract要約: 古典的幾何学的プランナーをいかに利用して,コストのかかる人間の実証を補完する合成軌道を生成するかを示す。
我々は、トランスフォーマーベースのビジュアルナビゲーションポリシーであるLess is More (LiMo)を訓練し、プランナーが生成する監督による限られた専門家によるデモンストレーションが、かなりのパフォーマンス向上をもたらすことを発見した。
- 参考スコア(独自算出の注目度): 19.38572888745551
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation learning provides a powerful framework for goal-conditioned visual navigation in mobile robots, enabling obstacle avoidance while respecting human preferences and social norms. However, its effectiveness depends critically on the quality and diversity of training data. In this work, we show how classical geometric planners can be leveraged to generate synthetic trajectories that complement costly human demonstrations. We train Less is More (LiMo), a transformer-based visual navigation policy that predicts goal-conditioned SE(2) trajectories from a single RGB observation, and find that augmenting limited expert demonstrations with planner-generated supervision yields substantial performance gains. Through ablations and complementary qualitative and quantitative analyses, we characterize how dataset scale and diversity affect planning performance. We demonstrate real-robot deployment and argue that robust visual navigation is enabled not by simply collecting more demonstrations, but by strategically curating diverse, high-quality datasets. Our results suggest that scalable, embodiment-specific geometric supervision is a practical path toward data-efficient visual navigation.
- Abstract(参考訳): 模倣学習は、人間の好みや社会的規範を尊重しながら障害物回避を可能にする、移動ロボットにおける目標条件付き視覚ナビゲーションのための強力なフレームワークを提供する。
しかし、その効果はトレーニングデータの質と多様性に大きく依存する。
本研究では,古典的幾何学的プランナーをいかに利用して,コストのかかる人間の実演を補完する合成軌道を生成するかを示す。
目標条件付きSE(2)軌道を1つのRGB観測から予測するトランスフォーマーベースのビジュアルナビゲーションポリシーであるLess is More (LiMo) を訓練し、プランナー生成による限られた専門家による実演を増強することで、かなりの性能向上が得られることを示した。
改善と相補的な質的、定量的分析を通じて、データセットのスケールと多様性が計画性能にどのように影響するかを特徴付ける。
実ロボットのデプロイを実演し、ロバストなビジュアルナビゲーションは、単により多くのデモを集めるだけでなく、さまざまな高品質のデータセットを戦略的にキュレートすることで有効である、と論じる。
以上の結果から,スケーラブルで具象化された幾何学的監督は,データ効率のよいビジュアルナビゲーションへの実践的な道筋であることが示唆された。
関連論文リスト
- Data Analogies Enable Efficient Cross-Embodiment Transfer [72.88252238231269]
汎用ロボットポリシーは、さまざまなロボット、シーン、視点で収集されたデモに基づいて訓練される。
ロボットのセットアップ間での移動を可能にする上で、最も有用なデモデータの種類は何か?
我々の模擬実験は、視点のような知覚的な変化は幅広い多様性から最も恩恵を受けるが、形態学的な変化は非構造的な多様性から非常に恩恵を受けないことを示している。
論文 参考訳(メタデータ) (2026-03-06T16:42:46Z) - Aerial Vision-Language Navigation with a Unified Framework for Spatial, Temporal and Embodied Reasoning [5.517595398768408]
本稿では,エゴ単分子RGB観測と自然言語命令のみで動作する航空VLNフレームワークを提案する。
このタスクは、低高度検査、サーチ・アンド・レスキュー、自律型空中輸送といった現実世界のアプリケーションに対して約束される。
論文 参考訳(メタデータ) (2025-12-09T14:25:24Z) - From Seeing to Experiencing: Scaling Navigation Foundation Models with Reinforcement Learning [59.88543114325153]
本稿では,航法基礎モデルの強化学習能力を高めるためのSeeing-to-Experiencingフレームワークを提案する。
S2Eは、ビデオの事前トレーニングとRLによるポストトレーニングの長所を組み合わせたものだ。
実世界のシーンを3DGSで再現した3D画像に基づく総合的なエンドツーエンド評価ベンチマークであるNavBench-GSを構築した。
論文 参考訳(メタデータ) (2025-07-29T17:26:10Z) - Next-Best-Trajectory Planning of Robot Manipulators for Effective Observation and Exploration [0.26999000177990923]
Next-Best-Trajectory原則は、動的環境で動作するロボットマニピュレータ向けに開発された。
本稿では,環境モデリングにボクセルマップを用い,関心点を中心とした視点からレイキャストを行い,情報ゲインを推定する。
グローバル・エルゴード・トラジェクトリ・プランナーは、ローカル・プランナーにオプションの参照・トラジェクトリを提供し、探索を改善し、ローカル・ミニマを避けるのに役立つ。
論文 参考訳(メタデータ) (2025-03-28T16:34:29Z) - Ground-level Viewpoint Vision-and-Language Navigation in Continuous Environments [10.953629652228024]
VLN(Vision-and-Language Navigation)エージェントは、時系列の視覚観察とそれに対応する指示を関連付け、意思決定を行う。
本稿では,人間中心の指示と低地視野の四足歩行ロボットとのミスマッチに対処する。
この問題を軽減するために,地上レベルの視点ナビゲーション(GVNav)手法を提案する。
論文 参考訳(メタデータ) (2025-02-26T10:30:40Z) - Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models [79.2162092822111]
我々は,一連のナビゲーションタスクにおいて,強化学習(RL)と制御に基づく手法を体系的に評価する。
我々は、JEPA(Joint Embedding Predictive Architecture)を使用して、潜在ダイナミクスモデルを使用し、それを計画に使用します。
その結果,モデルベースプランニングではレイアウトが不明瞭になるのに対して,モデルフリーのRLは高品質なデータから恩恵を受けることがわかった。
論文 参考訳(メタデータ) (2025-02-20T18:39:41Z) - Towards In-Vehicle Multi-Task Facial Attribute Recognition:
Investigating Synthetic Data and Vision Foundation Models [8.54530542456452]
車両の乗客の顔の特徴を認識する複雑なマルチタスクモデルを訓練するための合成データセットの有用性について検討する。
我々の研究は直感に反する発見を明らかにし、特に特定のマルチタスクコンテキストにおいて、ViTよりもResNetの方が優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-10T04:17:54Z) - Leveraging the Power of Data Augmentation for Transformer-based Tracking [64.46371987827312]
トラッキング用にカスタマイズされた2つのデータ拡張手法を提案する。
まず、動的探索半径機構と境界サンプルのシミュレーションにより、既存のランダムトリミングを最適化する。
第2に,背景干渉などの問題に対するモデルを可能にする,トークンレベルの機能混在強化戦略を提案する。
論文 参考訳(メタデータ) (2023-09-15T09:18:54Z) - TRAIL: Near-Optimal Imitation Learning with Suboptimal Data [100.83688818427915]
オフラインデータセットを使用してファクタードトランジションモデルを学習するトレーニング目標を提案する。
我々の理論的分析は、学習された潜在行動空間が下流模倣学習のサンプル効率を高めることを示唆している。
実際に潜伏行動空間を学習するために、エネルギーベースの遷移モデルを学ぶアルゴリズムTRAIL(Transition-Reparametrized Actions for Imitation Learning)を提案する。
論文 参考訳(メタデータ) (2021-10-27T21:05:00Z) - Counterfactual Vision-and-Language Navigation via Adversarial Path Sampling [65.99956848461915]
VLN(Vision-and-Language Navigation)は、エージェントが目標を達成するために3D環境を移動する方法を決定するタスクである。
VLNタスクの問題点の1つは、対話型環境において、人間に注釈を付けた指示で十分なナビゲーションパスを収集することは困難であるため、データの不足である。
本稿では,低品質な拡張データではなく,効果的な条件を考慮可能な,対向駆動の反実的推論モデルを提案する。
論文 参考訳(メタデータ) (2019-11-17T18:02:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。