論文の概要: FOCUS: Object-Centric World Models for Robotics Manipulation
- arxiv url: http://arxiv.org/abs/2307.02427v2
- Date: Fri, 7 Jul 2023 13:36:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 14:36:03.356340
- Title: FOCUS: Object-Centric World Models for Robotics Manipulation
- Title(参考訳): FOCUS:ロボット操作のためのオブジェクト中心の世界モデル
- Authors: Stefano Ferraro, Pietro Mazzaglia, Tim Verbelen, Bart Dhoedt
- Abstract要約: FOCUSは、オブジェクト中心の世界モデルを学ぶモデルベースのエージェントである。
オブジェクト中心の世界モデルにより、エージェントがより効率的にタスクを解くことができることを示す。
また、FOCUSが現実世界の環境でどのように採用されるかを示す。
- 参考スコア(独自算出の注目度): 4.6956495676681484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the world in terms of objects and the possible interplays with
them is an important cognition ability, especially in robotics manipulation,
where many tasks require robot-object interactions. However, learning such a
structured world model, which specifically captures entities and relationships,
remains a challenging and underexplored problem. To address this, we propose
FOCUS, a model-based agent that learns an object-centric world model. Thanks to
a novel exploration bonus that stems from the object-centric representation,
FOCUS can be deployed on robotics manipulation tasks to explore object
interactions more easily. Evaluating our approach on manipulation tasks across
different settings, we show that object-centric world models allow the agent to
solve tasks more efficiently and enable consistent exploration of robot-object
interactions. Using a Franka Emika robot arm, we also showcase how FOCUS could
be adopted in real-world settings.
- Abstract(参考訳): オブジェクトの観点で世界を理解し、それらと相互作用する可能性を理解することは重要な認識能力であり、特にロボット操作において、多くのタスクがロボットとオブジェクトの相互作用を必要とする。
しかし、エンティティや関係を特に捉えるような構造化された世界モデルを学ぶことは、困難で未解決の課題である。
そこで我々は,オブジェクト中心の世界モデルを学ぶモデルベースエージェントであるfocusを提案する。
オブジェクト中心の表現に由来する新しい探索ボーナスのおかげで、FOCUSはロボット操作タスクにデプロイされ、オブジェクト間の相互作用をより容易に探索することができる。
異なる設定でのタスク操作に対するアプローチを評価することで、オブジェクト中心の世界モデルにより、エージェントがタスクをより効率的に解決し、ロボットとオブジェクトの相互作用を一貫した探索を可能にすることを示す。
また、Franka Emikaロボットアームを使って、FOCUSが現実世界の環境でどのように採用されるかを示す。
関連論文リスト
- Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models [53.22792173053473]
我々はPolarisという対話型ロボット操作フレームワークを紹介した。
ポラリスはGPT-4と接地された視覚モデルを利用して知覚と相互作用を統合する。
本稿では,Syn2Real(Synthetic-to-Real)ポーズ推定パイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-15T06:40:38Z) - ManiFoundation Model for General-Purpose Robotic Manipulation of Contact Synthesis with Arbitrary Objects and Robots [24.035706461949715]
汎用ロボットが幅広い操作タスクをこなせるようなモデルを開発する必要がある。
本研究は,汎用ロボット操作の基礎モデルを構築するための包括的枠組みを導入する。
私たちのモデルは、平均的な成功率を約90%達成します。
論文 参考訳(メタデータ) (2024-05-11T09:18:37Z) - Teaching Unknown Objects by Leveraging Human Gaze and Augmented Reality
in Human-Robot Interaction [3.1473798197405953]
この論文は、人間-ロボットインタラクション(HRI)の文脈で未知の物体を教えることを目的としている。
視線追跡と拡張現実(Augmented Reality)を組み合わせることで、人間の教師がロボットとコミュニケーションできる強力なシナジーが生まれました。
ロボットの物体検出能力は、広範囲なデータセットで訓練された最先端の物体検出器に匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-12-12T11:34:43Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - RT-1: Robotics Transformer for Real-World Control at Scale [98.09428483862165]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。
実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文 参考訳(メタデータ) (2022-12-13T18:55:15Z) - DexTransfer: Real World Multi-fingered Dexterous Grasping with Minimal
Human Demonstrations [51.87067543670535]
本研究では,少数の人間によるデモンストレーションを行い,見えない物体のポーズを学習するロボット学習システムを提案する。
我々は,物体の点群を入力として捉え,物体を異なる初期ロボット状態から把握するための連続的な動作を予測する,厳密な把握ポリシーを訓練する。
我々のデータセットから学んだポリシーは、シミュレーションと現実世界の両方で見えないオブジェクトのポーズをうまく一般化することができる。
論文 参考訳(メタデータ) (2022-09-28T17:51:49Z) - Curious Exploration via Structured World Models Yields Zero-Shot Object
Manipulation [19.840186443344]
そこで本研究では,制御ループに帰納バイアスを組み込む構造的世界モデルを用いて,サンプル効率の高い探索を実現することを提案する。
提案手法は,早期にオブジェクトと対話し始める自由プレイ動作を生成し,時間とともにより複雑な動作を発達させる。
論文 参考訳(メタデータ) (2022-06-22T22:08:50Z) - V-MAO: Generative Modeling for Multi-Arm Manipulation of Articulated
Objects [51.79035249464852]
本稿では,音声による物体のマルチアーム操作を学習するためのフレームワークを提案する。
本フレームワークは,各ロボットアームの剛部上の接触点分布を学習する変動生成モデルを含む。
論文 参考訳(メタデータ) (2021-11-07T02:31:09Z) - Maintaining a Reliable World Model using Action-aware Perceptual
Anchoring [4.971403153199917]
物体が見えなくなったり見えなくなったりしても、ロボットは周囲のモデルを維持する必要がある。
これは、環境内のオブジェクトを表すシンボルに知覚情報をアンカーする必要がある。
本稿では,ロボットが物体を永続的に追跡できる行動認識型知覚アンカーのモデルを提案する。
論文 参考訳(メタデータ) (2021-07-07T06:35:14Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。