論文の概要: Learning visual policies for building 3D shape categories
- arxiv url: http://arxiv.org/abs/2004.07950v2
- Date: Wed, 30 Sep 2020 22:24:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 02:36:35.314914
- Title: Learning visual policies for building 3D shape categories
- Title(参考訳): 3次元形状カテゴリー構築のための視覚政策の学習
- Authors: Alexander Pashevich, Igor Kalevatykh, Ivan Laptev, Cordelia Schmid
- Abstract要約: この領域における以前の作業は、しばしば既知のプリミティブの集合から特定のオブジェクトのインスタンスを組み立てる。
私たちは、同じカテゴリの他のインスタンスを組み立てるための視覚ポリシーを学びます。
我々の視覚アセンブリポリシーは、実際の画像なしで訓練され、実際のロボットで評価した場合、95%の成功率に達する。
- 参考スコア(独自算出の注目度): 130.7718618259183
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Manipulation and assembly tasks require non-trivial planning of actions
depending on the environment and the final goal. Previous work in this domain
often assembles particular instances of objects from known sets of primitives.
In contrast, we aim to handle varying sets of primitives and to construct
different objects of a shape category. Given a single object instance of a
category, e.g. an arch, and a binary shape classifier, we learn a visual policy
to assemble other instances of the same category. In particular, we propose a
disassembly procedure and learn a state policy that discovers new object
instances and their assembly plans in state space. We then render simulated
states in the observation space and learn a heatmap representation to predict
alternative actions from a given input image. To validate our approach, we
first demonstrate its efficiency for building object categories in state space.
We then show the success of our visual policies for building arches from
different primitives. Moreover, we demonstrate (i) the reactive ability of our
method to re-assemble objects using additional primitives and (ii) the robust
performance of our policy for unseen primitives resembling building blocks used
during training. Our visual assembly policies are trained with no real images
and reach up to 95% success rate when evaluated on a real robot.
- Abstract(参考訳): 操作とアセンブリタスクは、環境と最終目標に応じて、アクションの非自明な計画を必要とする。
この領域における以前の作業は、しばしば既知のプリミティブの集合から特定のオブジェクトのインスタンスを組み立てる。
対照的に、我々は様々なプリミティブの集合を扱い、形状圏の異なるオブジェクトを構築することを目指している。
カテゴリの1つのオブジェクトインスタンス、例えばアーチとバイナリ形状分類器が与えられたとき、私たちは同じカテゴリの他のインスタンスを組み立てるためのビジュアルポリシーを学習します。
特に,分解手順を提案し,状態空間における新しいオブジェクトインスタンスとそれらのアセンブリ計画を発見する状態ポリシーを学習する。
次に、観測空間にシミュレーションされた状態をレンダリングし、入力画像から代替行動を予測するためのヒートマップ表現を学習する。
提案手法の有効性を検証するために,状態空間におけるオブジェクトカテゴリ構築の効率性を示す。
次に、異なるプリミティブからアーチを構築するための視覚ポリシーの成功を示します。
さらに、我々は
(i)追加のプリミティブを使ってオブジェクトを再組み立てる手法の反応性
(II)トレーニング時に使用するビルディングブロックに類似した未確認プリミティブに対するポリシーの堅牢な性能。
我々の視覚アセンブリポリシーは、実際の画像なしで訓練され、実際のロボットで評価した場合、95%の成功率に達する。
関連論文リスト
- ICGNet: A Unified Approach for Instance-Centric Grasping [42.92991092305974]
オブジェクト中心の把握のためのエンドツーエンドアーキテクチャを導入する。
提案手法の有効性を,合成データセット上での最先端手法に対して広範囲に評価することにより示す。
論文 参考訳(メタデータ) (2024-01-18T12:41:41Z) - Learning Generalizable Manipulation Policies with Object-Centric 3D
Representations [65.55352131167213]
GROOTは、オブジェクト中心と3D事前の堅牢なポリシーを学ぶための模倣学習手法である。
ビジョンベースの操作のための初期訓練条件を超えて一般化するポリシーを構築する。
GROOTのパフォーマンスは、バックグラウンドの変更、カメラの視点シフト、新しいオブジェクトインスタンスの存在に関する一般化に優れています。
論文 参考訳(メタデータ) (2023-10-22T18:51:45Z) - PartManip: Learning Cross-Category Generalizable Part Manipulation
Policy from Point Cloud Observations [12.552149411655355]
私たちは、最初の大規模、パートベースのクロスカテゴリオブジェクト操作ベンチマーク、PartManipを構築しました。
我々は、提案したパートベース標準化とパートアウェア報酬で州ベースのエキスパートを訓練し、その知識をビジョンベースの学生に蒸留する。
クロスカテゴリの一般化のために,ドメイン不変特徴抽出のためのドメイン逆学習を導入する。
論文 参考訳(メタデータ) (2023-03-29T18:29:30Z) - Structure-Guided Image Completion with Image-level and Object-level Semantic Discriminators [97.12135238534628]
複雑な意味論やオブジェクトの生成を改善するために,セマンティック・ディミネータとオブジェクトレベル・ディミネータからなる学習パラダイムを提案する。
特に、セマンティック・ディミネーターは、事前学習された視覚的特徴を利用して、生成された視覚概念の現実性を改善する。
提案手法は, 生成品質を著しく向上させ, 各種タスクの最先端化を実現する。
論文 参考訳(メタデータ) (2022-12-13T01:36:56Z) - Hyperbolic Contrastive Learning for Visual Representations beyond
Objects [30.618032825306187]
我々は,それらの間の構造を保ったオブジェクトやシーンの表現を学習することに集中する。
視覚的に類似した物体が表現空間に近接しているという観察に触発された私たちは、シーンとオブジェクトは代わりに階層構造に従うべきだと論じる。
論文 参考訳(メタデータ) (2022-12-01T16:58:57Z) - Efficient Representations of Object Geometry for Reinforcement Learning
of Interactive Grasping Policies [29.998917158604694]
本稿では,様々な幾何学的に異なる実世界の物体の対話的把握を学習する強化学習フレームワークを提案する。
学習したインタラクティブなポリシーのビデオはhttps://maltemosbach.org/io/geometry_aware_grasping_policiesで公開されている。
論文 参考訳(メタデータ) (2022-11-20T11:47:33Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - Contrastive Object Detection Using Knowledge Graph Embeddings [72.17159795485915]
一つのホットアプローチで学習したクラス埋め込みの誤差統計と、自然言語処理や知識グラフから意味的に構造化された埋め込みを比較した。
本稿では,キーポイントベースおよびトランスフォーマーベースオブジェクト検出アーキテクチャの知識埋め込み設計を提案する。
論文 参考訳(メタデータ) (2021-12-21T17:10:21Z) - Few-shot Object Grounding and Mapping for Natural Language Robot
Instruction Following [15.896892723068932]
本稿では,ロボットのポリシーを学習して自然言語の指示に従うという課題について考察する。
本稿では,拡張現実データから学習した数発の言語条件オブジェクトグラウンドティング手法を提案する。
オブジェクトの位置とその指示された使用を符号化した学習地図表現を提示し、この数発のグラウンドアウトプットから構築する。
論文 参考訳(メタデータ) (2020-11-14T20:35:20Z) - Look-into-Object: Self-supervised Structure Modeling for Object
Recognition [71.68524003173219]
我々は,自己スーパービジョンを取り入れた「対象」(具体的かつ内在的に対象構造をモデル化する)を提案する。
認識バックボーンは、より堅牢な表現学習のために大幅に拡張可能であることを示す。
提案手法は汎用オブジェクト認識(ImageNet)や細粒度オブジェクト認識タスク(CUB, Cars, Aircraft)など,多数のベンチマークにおいて大きなパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-03-31T12:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。