論文の概要: Action Image Representation: Learning Scalable Deep Grasping Policies
with Zero Real World Data
- arxiv url: http://arxiv.org/abs/2005.06594v1
- Date: Wed, 13 May 2020 21:40:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-03 13:33:29.675355
- Title: Action Image Representation: Learning Scalable Deep Grasping Policies
with Zero Real World Data
- Title(参考訳): Action Image Representation: Zero Real World DataによるスケーラブルなDeep Grasping Policiesの学習
- Authors: Mohi Khansari, Daniel Kappler, Jianlan Luo, Jeff Bingham, Mrinal
Kalakrishnan
- Abstract要約: Action Imageは画像としてグリップの提案を表し、深い畳み込みネットワークを使用してグリップ品質を推測する。
この表現は、色画像(RGB)、深度画像(D)、組み合わせ色深度(RGB-D)など様々な入力に作用することを示す。
- 参考スコア(独自算出の注目度): 12.554739620645917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces Action Image, a new grasp proposal representation that
allows learning an end-to-end deep-grasping policy. Our model achieves $84\%$
grasp success on $172$ real world objects while being trained only in
simulation on $48$ objects with just naive domain randomization. Similar to
computer vision problems, such as object detection, Action Image builds on the
idea that object features are invariant to translation in image space.
Therefore, grasp quality is invariant when evaluating the object-gripper
relationship; a successful grasp for an object depends on its local context,
but is independent of the surrounding environment. Action Image represents a
grasp proposal as an image and uses a deep convolutional network to infer grasp
quality. We show that by using an Action Image representation, trained networks
are able to extract local, salient features of grasping tasks that generalize
across different objects and environments. We show that this representation
works on a variety of inputs, including color images (RGB), depth images (D),
and combined color-depth (RGB-D). Our experimental results demonstrate that
networks utilizing an Action Image representation exhibit strong domain
transfer between training on simulated data and inference on real-world sensor
streams. Finally, our experiments show that a network trained with Action Image
improves grasp success ($84\%$ vs. $53\%$) over a baseline model with the same
structure, but using actions encoded as vectors.
- Abstract(参考訳): 本稿では,エンド・ツー・エンドのディープ・グラッピング・ポリシーを学習可能な新しいグラブ・プロポーザル表現であるaction imageを提案する。
我々のモデルは、実世界のオブジェクトが172ドルで8,4\%の成功を収める一方で、ナイーブなドメインランダム化だけで4,8ドルのオブジェクトのシミュレーションでしか訓練されない。
オブジェクト検出などのコンピュータビジョン問題と同様に、Action Imageはオブジェクトの特徴が画像空間の変換に不変であるという考え方に基づいている。
したがって、オブジェクトとグリップの関係を評価する際には、グリップ品質は不変であり、オブジェクトのグリップの成功は、そのローカルコンテキストに依存するが、周囲環境とは独立である。
動作画像は把持提案を画像として表現し、深い畳み込みネットワークを用いて把持品質を推定する。
動作画像表現を用いることで,学習したネットワークは,異なる対象や環境にまたがるタスクの局所的,有意義な特徴を抽出できることを示す。
この表現は、色画像(RGB)、深度画像(D)、組み合わせ色深度(RGB-D)など様々な入力に作用することを示す。
実験の結果,実世界のセンサストリームにおけるシミュレーションデータと推定の間に,動作画像表現を用いたネットワークが強いドメイン転送を示すことがわかった。
最後に,行動画像で訓練されたネットワークは,同じ構造を持つベースラインモデルに対して,ベクタとして符号化された動作を用いることで,把持成功率(84\%$ vs. 53\%$)が向上することを示す。
関連論文リスト
- Natural Language Can Help Bridge the Sim2Real Gap [9.458180590551715]
Sim2Realは、現実世界のターゲットドメインでデータ不足を克服するための有望なパラダイムである。
本稿では,画像の自然言語記述を領域間の統一信号として用いることを提案する。
言語記述を予測するために、画像エンコーダをトレーニングすることは、有用な、データ効率の良い事前学習ステップとなることを実証する。
論文 参考訳(メタデータ) (2024-05-16T12:02:02Z) - CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Seeing the Unseen: Visual Common Sense for Semantic Placement [71.76026880991245]
画像が与えられたら、視覚システムは、その物体が置かれたり、人間によって配置される可能性がある画像の意味論的に意味のある領域(マスクまたは境界ボックス)を予測するように要求される。
セマンティック・プレースメント(SP)と呼ばれるこのタスクは、ロボットやARデバイス(ユーザーの空間内でオブジェクトを自動レンダリングする)にとって、このような常識的な視覚的理解が重要であると信じている。
論文 参考訳(メタデータ) (2024-01-15T15:28:30Z) - IMProv: Inpainting-based Multimodal Prompting for Computer Vision Tasks [124.90137528319273]
本稿では,マルチモーダルプロンプトから視覚タスクをインコンテキストで学習できる生成モデルIMProvを提案する。
我々は、コンピュータビジョン論文とその関連キャプションから、新しい数字のデータセットにマスク付き生成変換器を訓練する。
推測時間中、テキストおよび/または画像タスクの例でモデルにプロンプトし、そのモデルに対応する出力を印字させる。
論文 参考訳(メタデータ) (2023-12-04T09:48:29Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Context-driven Visual Object Recognition based on Knowledge Graphs [0.8701566919381223]
本稿では,知識グラフに符号化された外部文脈知識を用いて,ディープラーニング手法を強化する手法を提案する。
我々は、異なる文脈ビューが同じ画像データセットの学習対象表現に与える影響を調べるために、一連の実験を行った。
論文 参考訳(メタデータ) (2022-10-20T13:09:00Z) - Semantic decoupled representation learning for remote sensing image
change detection [17.548248093344576]
RS画像CDのセマンティックデカップリング表現学習を提案する。
我々は、セマンティックマスクを利用して、異なるセマンティック領域の表現をアンタングルする。
さらに、下流CDタスクにおける関心対象の認識に役立ち、異なる意味表現を区別するようモデルに強制する。
論文 参考訳(メタデータ) (2022-01-15T07:35:26Z) - Self-Supervised Learning of Domain Invariant Features for Depth
Estimation [35.74969527929284]
単一画像深度推定のための教師なし合成-現実的領域適応の課題に対処する。
単一画像深度推定の重要なビルディングブロックはエンコーダ・デコーダ・タスク・ネットワークであり、RGB画像を入力とし、出力として深度マップを生成する。
本稿では,タスクネットワークにドメイン不変表現を自己教師型で学習させる新たなトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2021-06-04T16:45:48Z) - Self-Supervised Representation Learning from Flow Equivariance [97.13056332559526]
本稿では,複雑なシーンの映像ストリームに直接展開可能な,自己教師型学習表現フレームワークを提案する。
高分解能rawビデオから学んだ我々の表現は、静的画像の下流タスクに簡単に使用できます。
論文 参考訳(メタデータ) (2021-01-16T23:44:09Z) - Domain Adaptation with Morphologic Segmentation [8.0698976170854]
本稿では,任意の入力領域(実領域と合成領域)の画像を一様出力領域に変換するために,形態的セグメンテーションを用いた新しいドメイン適応フレームワークを提案する。
私たちのゴールは、複数のソースからのデータを共通の表現に統一する前処理のステップを確立することです。
都市景観のシミュレートと実データの4つのデータ集合上で, 定性的に定量的に評価し, 提案手法の有効性を示す。
論文 参考訳(メタデータ) (2020-06-16T17:06:02Z) - Instance-aware Image Colorization [51.12040118366072]
本稿では,インスタンス認識のカラー化を実現する手法を提案する。
我々のネットワークアーキテクチャは、市販のオブジェクト検出器を利用して、収穫されたオブジェクト画像を取得する。
類似したネットワークを用いて、フルイメージの特徴を抽出し、融合モジュールを適用して最終色を予測する。
論文 参考訳(メタデータ) (2020-05-21T17:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。