論文の概要: Monocular Robot Navigation with Self-Supervised Pretrained Vision
Transformers
- arxiv url: http://arxiv.org/abs/2203.03682v1
- Date: Mon, 7 Mar 2022 19:47:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-09 14:25:40.312085
- Title: Monocular Robot Navigation with Self-Supervised Pretrained Vision
Transformers
- Title(参考訳): 自己教師付き事前学習視覚トランスフォーマによる単眼ロボットナビゲーション
- Authors: Miguel Saavedra-Ruiz, Sacha Morin and Liam Paull
- Abstract要約: 我々は,70個のトレーニング画像を用いて,ダッキータウン環境に対する粗い画像分割モデルを訓練する。
提案モデルでは,8x8パッチレベルで粗い画像分割を行い,予測粒度とリアルタイム知覚制約のバランスをとるために推論分解能を調整できる。
結果として得られる知覚モデルは、単純だが堅牢な視覚サーボ剤のバックボーンとして使用される。
- 参考スコア(独自算出の注目度): 10.452316044889177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we consider the problem of learning a perception model for
monocular robot navigation using few annotated images. Using a Vision
Transformer (ViT) pretrained with a label-free self-supervised method, we
successfully train a coarse image segmentation model for the Duckietown
environment using 70 training images. Our model performs coarse image
segmentation at the 8x8 patch level, and the inference resolution can be
adjusted to balance prediction granularity and real-time perception
constraints. We study how best to adapt a ViT to our task and environment, and
find that some lightweight architectures can yield good single-image
segmentations at a usable frame rate, even on CPU. The resulting perception
model is used as the backbone for a simple yet robust visual servoing agent,
which we deploy on a differential drive mobile robot to perform two tasks: lane
following and obstacle avoidance.
- Abstract(参考訳): 本研究は,少ない注釈付き画像を用いた単眼ロボットナビゲーションにおける知覚モデル学習の問題について考察する。
ラベルのない自己教師方式で事前訓練した視覚変換器(ViT)を用いて,70個のトレーニング画像を用いて,Duckietown環境における粗い画像分割モデルをトレーニングした。
提案モデルでは,8x8パッチレベルで粗い画像分割を行い,予測粒度とリアルタイム知覚制約のバランスをとるために推論分解能を調整できる。
タスクや環境にvitを適応させる最善の方法を検討し、cpu上であっても、有効なフレームレートで優れたシングルイメージセグメンテーションが得られる軽量アーキテクチャを見つける。
その結果得られた知覚モデルは、単純でロバストな視覚サーボエージェントのバックボーンとして使われ、ディファレンシャルドライブ移動ロボットにデプロイして、レーン追従と障害物回避の2つのタスクを実行します。
関連論文リスト
- LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning [50.99807031490589]
LLARVAは,ロボット学習タスク,シナリオ,環境を統一するための,新しい指導指導法で訓練されたモデルである。
我々は,Open X-Embodimentデータセットから8.5Mの画像-視覚的トレースペアを生成し,モデルを事前学習する。
実験によって強い性能が得られ、LLARVAは現代のいくつかのベースラインと比較してよく機能することを示した。
論文 参考訳(メタデータ) (2024-06-17T17:55:29Z) - Scaling Manipulation Learning with Visual Kinematic Chain Prediction [32.99644520625179]
本研究では,多様な環境下でのロボット学習における準静的動作の高精度かつ普遍的な表現として,視覚キネマティクス連鎖を提案する。
我々は,Calvin,RLBench,Open-X,および実際のロボット操作タスクにおいて,BC変換器に対するVKTの優れた性能を示す。
論文 参考訳(メタデータ) (2024-06-12T03:10:27Z) - Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文 参考訳(メタデータ) (2023-06-16T17:58:10Z) - MULLER: Multilayer Laplacian Resizer for Vision [16.67232499096539]
MULLERレサイザと呼ばれる,少数のトレーニング可能なパラメータしか持たない,非常に軽量な多層ラプラシアンリサイザを提案する。
MULLERは、様々な訓練パイプラインに簡単に接続できることを示し、基礎となる視覚タスクの性能を、ほとんど、あるいは、余分なコストで効果的に向上させる。
論文 参考訳(メタデータ) (2023-04-06T04:39:21Z) - Real-World Robot Learning with Masked Visual Pre-training [161.88981509645416]
本研究では,実世界におけるロボット作業のための多種多様なアプリ内ビデオの画像に対する,自己指導型視覚前訓練について検討する。
私たちの視覚表現は、マスク付きオートエンコーダ(MAE)を介して事前訓練され、凍結され、学習可能な制御モジュールに渡されます。
エンコーダは、CLIP(最大75%)、ImageNet事前トレーニング(最大81%)、スクラッチ(最大81%)を一貫して上回ります。
論文 参考訳(メタデータ) (2022-10-06T17:59:01Z) - Pro-tuning: Unified Prompt Tuning for Vision Tasks [133.12978197265596]
ファインチューニングは、トレーニング済みの視覚モデルを利用して下流タスクを実行するデファクトアプローチである。
本研究では,様々な下流視覚タスクに凍結視覚モデルを適用するために,パラメータ効率のよいプロンプトチューニング(Pro-tuning)を提案する。
論文 参考訳(メタデータ) (2022-07-28T21:09:31Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z) - CaRTS: Causality-driven Robot Tool Segmentation from Vision and
Kinematics Data [11.92904350972493]
ロボット支援手術中の視覚に基づくロボットツールのセグメンテーションは、拡張現実フィードバックなどの下流アプリケーションを可能にする。
ディープラーニングの導入により、楽器のセグメンテーションを画像から直接、あるいは画像から直接解決する多くの方法が提示された。
本稿では,ロボットツールセグメンテーションタスクの相補的因果モデルに基づいて設計した因果性駆動型ロボットツールセグメンテーションアルゴリズムCaRTSを提案する。
論文 参考訳(メタデータ) (2022-03-15T22:26:19Z) - Masked Visual Pre-training for Motor Control [118.18189211080225]
実世界の画像からの自己教師付き視覚前訓練は、画素から運動制御タスクを学習するのに有効である。
私たちはビジュアルエンコーダを凍結し、強化学習でニューラルネットワークコントローラをトレーニングします。
これは、モーター制御のために現実の画像を大規模に活用した初めての自己教師型モデルである。
論文 参考訳(メタデータ) (2022-03-11T18:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。