論文の概要: Multimodal embodiment-aware navigation transformer
- arxiv url: http://arxiv.org/abs/2604.19267v1
- Date: Tue, 21 Apr 2026 09:32:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.703463
- Title: Multimodal embodiment-aware navigation transformer
- Title(参考訳): マルチモーダルエンボディメント対応ナビゲーショントランス
- Authors: Louis Dezons, Quentin Picard, Rémi Marsal, François Goulette, David Filliat,
- Abstract要約: ViLiNTは、複数のプラットフォームや環境からの異種データに基づいてトレーニングされた、ゴールナビゲーションのためのマルチモーダルな注意ベースのポリシーである。
我々は、ViLiNTが、同等の最先端ビジョンオンリーベースライン(NoMaD)よりも平均166%向上することを示す。
結果は、障害物場を航行するローバーの実際の展開を通じて確認される。
- 参考スコア(独自算出の注目度): 5.673561896367136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Goal-conditioned navigation models for ground robots trained using supervised learning show promising zero-shot transfer, but their collision-avoidance capability nevertheless degrades under distribution shift, i.e. environmental, robot or sensor configuration changes. We propose ViLiNT a multimodal, attention-based policy for goal navigation, trained on heterogeneous data from multiple platforms and environments, which improves robustness with two key features. First, we fuse RGB images, 3D LiDAR point clouds, a goal embedding and a robot's embodiment descriptor with a transformer architecture to capture complementary geometry and appearance cues. The transformer's output is used to condition a diffusion model that generates navigable trajectories. Second, using automatically generated offline labels, we train a path clearance prediction head for scoring and ranking trajectories produced by the diffusion model. The diffusion conditioning as well as the trajectory ranking head depend on a robot's embodiment token that allows our model to generate and select trajectories with respect to the robot's dimensions. Across three simulated environments, ViLiNT improves Success Rate on average by 166\% over equivalent state-of-the-art vision-only baseline (NoMaD). This increase in performance is confirmed through real-world deployments of a rover navigating in obstacle fields. These results highlight that combining multimodal fusion with our collision prediction mechanism leads to improved off-road navigation robustness.
- Abstract(参考訳): 教師付き学習を用いて訓練された地上ロボットのゴール条件ナビゲーションモデルでは、ゼロショット転送が期待できるが、その衝突回避能力は、しかしながら、環境、ロボット、センサー構成の変化によって低下する。
目的ナビゲーションのためのマルチモーダル・アテンションベースのポリシーであるViLiNTを提案する。
まず、RGB画像、3D LiDAR点雲、ゴール埋め込み、ロボットのエンボディメント記述子をトランスフォーマーアーキテクチャで融合し、相補的な幾何学と外観の手がかりを捉える。
トランスの出力は、航行可能な軌道を生成する拡散モデルを記述するために使用される。
第2に、自動生成されたオフラインラベルを用いて、拡散モデルにより生成された軌道のスコアとランク付けのための経路クリアランス予測ヘッドを訓練する。
拡散条件と軌道ランクヘッドはロボットのエンボディメントトークンに依存しており、ロボットの寸法に関する軌道を生成・選択することができる。
3つのシミュレーション環境において、ViLiNTは、同等の最先端ビジョン専用ベースライン(NoMaD)よりも平均166\%の成功率を改善する。
この性能向上は、障害物場を航行するローバーの実際の展開を通じて確認される。
これらの結果から,マルチモーダル融合と衝突予測機構を組み合わせることにより,オフロードナビゲーションの堅牢性が向上することが示唆された。
関連論文リスト
- Can Vision Foundation Models Navigate? Zero-Shot Real-World Evaluation and Lessons Learned [5.561294055181353]
ビジュアルナビゲーションモデル(VNM)は、大規模な視覚的なデモンストレーションから学ぶことで、一般化可能なロボットナビゲーションを約束する。
室内と屋外にまたがる2つのロボットプラットフォームと5つの環境にまたがる5つの最先端VNMの現実的評価について述べる。
論文 参考訳(メタデータ) (2026-03-26T22:04:49Z) - Robometer: Scaling General-Purpose Robotic Reward Models via Trajectory Comparisons [69.87766750714945]
汎用ロボット報酬モデルは通常、専門家によるデモンストレーションから絶対的なタスク進捗を予測するために訓練される。
本稿では、軌道内進行監視と軌道間優先監視を組み合わせたスケーラブルな報酬モデリングフレームワークRobometerを紹介する。
ロビオメーターは、専門家データに報酬等級を固定するフレームレベルのプログレス・ロスと、グローバルな順序制約を課す軌跡比較優先損失という2つの目的で訓練されている。
論文 参考訳(メタデータ) (2026-03-02T17:38:58Z) - DRAW2ACT: Turning Depth-Encoded Trajectories into Robotic Demonstration Videos [24.681248200255975]
ビデオモデルは、組み込みAIのための強力な現実世界シミュレータを提供するが、ロボット操作の制御性には制限がある。
入力軌跡から複数の表現を抽出するトラジェクトリ条件付きビデオ生成フレームワークであるDRAW2ACTを提案する。
DRAW2ACTは、既存のベースラインよりも高い操作成功率を示しながら、より優れた視覚的忠実度と一貫性を実現する。
論文 参考訳(メタデータ) (2025-12-16T09:11:36Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z) - IRASim: A Fine-Grained World Model for Robot Manipulation [24.591694756757278]
本稿では,ロボットとオブジェクトのインタラクションの詳細を詳細に表現したビデオを生成する新しい世界モデルIRASimを提案する。
拡散変圧器を訓練し、各変圧器ブロック内に新しいフレームレベル動作条件モジュールを導入し、アクションフレームアライメントを明示的にモデル化し強化する。
論文 参考訳(メタデータ) (2024-06-20T17:50:16Z) - NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration [57.15811390835294]
本稿では,目標指向ナビゲーションと目標非依存探索の両方を扱うために,単一の統合拡散政策をトレーニングする方法について述べる。
この統一された政策は、新しい環境における目標を視覚的に示す際に、全体的な性能が向上することを示す。
実世界の移動ロボットプラットフォーム上で実施した実験は,5つの代替手法と比較して,見えない環境における効果的なナビゲーションを示す。
論文 参考訳(メタデータ) (2023-10-11T21:07:14Z) - SABER: Data-Driven Motion Planner for Autonomously Navigating
Heterogeneous Robots [112.2491765424719]
我々は、データ駆動型アプローチを用いて、異種ロボットチームをグローバルな目標に向けてナビゲートする、エンドツーエンドのオンラインモーションプランニングフレームワークを提案する。
モデル予測制御(SMPC)を用いて,ロボット力学を満たす制御入力を計算し,障害物回避時の不確実性を考慮した。
リカレントニューラルネットワークは、SMPC有限時間地平線解における将来の状態の不確かさを素早く推定するために用いられる。
ディープQ学習エージェントがハイレベルパスプランナーとして機能し、SMPCにロボットを望ましいグローバルな目標に向けて移動させる目標位置を提供する。
論文 参考訳(メタデータ) (2021-08-03T02:56:21Z) - Kimera-Multi: Robust, Distributed, Dense Metric-Semantic SLAM for
Multi-Robot Systems [92.26462290867963]
Kimera-Multiは、最初のマルチロボットシステムであり、不正なインターループとイントラロボットループの閉鎖を識別し拒否することができる。
我々は、フォトリアリスティックシミュレーション、SLAMベンチマークデータセット、地上ロボットを用いて収集された屋外データセットの挑戦において、Kimera-Multiを実証した。
論文 参考訳(メタデータ) (2021-06-28T03:56:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。