論文の概要: DINOBot: Robot Manipulation via Retrieval and Alignment with Vision
Foundation Models
- arxiv url: http://arxiv.org/abs/2402.13181v1
- Date: Tue, 20 Feb 2024 17:48:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 14:03:28.807837
- Title: DINOBot: Robot Manipulation via Retrieval and Alignment with Vision
Foundation Models
- Title(参考訳): DINOBot:視覚基礎モデルによる検索とアライメントによるロボット操作
- Authors: Norman Di Palo and Edward Johns
- Abstract要約: DINOBotはロボット操作のための新しい模倣学習フレームワークである。
DINOでトレーニングされたVision Transformersから抽出された機能の、画像レベルとピクセルレベルの機能を活用する。
視覚基盤モデルの画像レベルと画素レベルの両方の特性を利用することで、前例のない学習効率が得られることを示す。
- 参考スコア(独自算出の注目度): 14.037205215634538
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose DINOBot, a novel imitation learning framework for robot
manipulation, which leverages the image-level and pixel-level capabilities of
features extracted from Vision Transformers trained with DINO. When interacting
with a novel object, DINOBot first uses these features to retrieve the most
visually similar object experienced during human demonstrations, and then uses
this object to align its end-effector with the novel object to enable effective
interaction. Through a series of real-world experiments on everyday tasks, we
show that exploiting both the image-level and pixel-level properties of vision
foundation models enables unprecedented learning efficiency and generalisation.
Videos and code are available at https://www.robot-learning.uk/dinobot.
- Abstract(参考訳): 本研究では,ロボット操作のための新しい模倣学習フレームワークであるDINOBotを提案する。
DINOBotは、新しいオブジェクトと対話する際に、まずこれらの特徴を使って人間のデモで経験した最も視覚的に類似したオブジェクトを検索し、次にこのオブジェクトを使用して、そのエンドエフェクターを新しいオブジェクトと整列させ、効果的な相互作用を可能にする。
視覚基礎モデルのイメージレベルと画素レベルの両方の特性を活用することで、前例のない学習効率と一般化が可能になることを示す。
ビデオとコードはhttps://www.robot-learning.uk/dinobot.com/で入手できる。
関連論文リスト
- Differentiable Robot Rendering [45.23538293501457]
本稿では,ロボット本体の視覚的外観を,その制御パラメータに対して直接微分可能とするロボットレンダリングについて紹介する。
画像からロボットのポーズを復元したり、視覚言語モデルを用いてロボットを制御するなど、その能力と用途を実演する。
論文 参考訳(メタデータ) (2024-10-17T17:59:02Z) - Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models [53.22792173053473]
我々はPolarisという対話型ロボット操作フレームワークを紹介した。
ポラリスはGPT-4と接地された視覚モデルを利用して知覚と相互作用を統合する。
本稿では,Syn2Real(Synthetic-to-Real)ポーズ推定パイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-15T06:40:38Z) - Vision-based Manipulation from Single Human Video with Open-World Object Graphs [58.23098483464538]
我々は、人間のビデオから視覚に基づく操作スキルを学ぶために、ロボットに力を与えるオブジェクト中心のアプローチを提案する。
ORIONは,単一のRGB-Dビデオからオブジェクト中心の操作計画を抽出することで,この問題に対処するアルゴリズムである。
論文 参考訳(メタデータ) (2024-05-30T17:56:54Z) - Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。
私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。
学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:56:55Z) - Exploring Visual Pre-training for Robot Manipulation: Datasets, Models
and Methods [14.780597545674157]
本稿では,3つの基本的視点から,視覚的事前学習がロボット操作作業に及ぼす影響について検討する。
自己教師型学習と教師型学習を組み合わせた視覚的事前学習方式Vi-PRoMを提案する。
論文 参考訳(メタデータ) (2023-08-07T14:24:52Z) - Giving Robots a Hand: Learning Generalizable Manipulation with
Eye-in-Hand Human Video Demonstrations [66.47064743686953]
眼内カメラは、視覚に基づくロボット操作において、より優れたサンプル効率と一般化を可能にすることを約束している。
一方、人間がタスクを行うビデオは、ロボット遠隔操作の専門知識を欠いているため、収集コストがずっと安い。
本研究では,広範にラベルのない人間ビデオによるロボット模倣データセットを拡張し,眼球運動ポリシーの一般化を大幅に促進する。
論文 参考訳(メタデータ) (2023-07-12T07:04:53Z) - Affordances from Human Videos as a Versatile Representation for Robotics [31.248842798600606]
我々は、人間がどこでどのように対話するかを推定する視覚的余裕モデルを訓練する。
これらの行動割当の構造は、ロボットが多くの複雑なタスクを直接実行できるようにする。
私たちは、VRBと呼ばれる4つの現実世界環境、10以上のタスクと2つのロボットプラットフォームにおいて、私たちのアプローチの有効性を示します。
論文 参考訳(メタデータ) (2023-04-17T17:59:34Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - What Can I Do Here? Learning New Skills by Imagining Visual Affordances [128.65223577406587]
提案手法は,ロボットが可利用性の視覚的表現を学習する上で,どのような結果が得られるかを示す。
実際、事前データは、ロボットが不慣れな状況に遭遇したとき、そのモデルから潜在的な結果をサンプリングするように、どのような結果が得られるかを学ぶのに使用される。
本稿では, VAL(visuomotor affordance learning)を用いて, 生画像入力で動作する目標条件付きポリシーの学習を行う。
論文 参考訳(メタデータ) (2021-06-01T17:58:02Z) - Learning a generative model for robot control using visual feedback [7.171234436165255]
本稿では,ロボット制御に視覚フィードバックを取り入れた新しい定式化を提案する。
モデルにおける推論により,特徴のターゲット位置に対応するロボット状態を推測することができる。
本研究では,不正確な制御を行うロボットに対して,握りとタイトな挿入を実行することで,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-03-10T00:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。