論文の概要: Unsupervised Feature Learning for Manipulation with Contrastive Domain
Randomization
- arxiv url: http://arxiv.org/abs/2103.11144v1
- Date: Sat, 20 Mar 2021 09:54:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-26 03:22:20.883948
- Title: Unsupervised Feature Learning for Manipulation with Contrastive Domain
Randomization
- Title(参考訳): コントラスト領域ランダム化操作のための教師なし特徴学習
- Authors: Carmel Rabinovitz, Niko Grupen and Aviv Tamar
- Abstract要約: 教師なし学習に対するドメインランダム化のナイーブな応用は不変性を促進しないことを示す。
本研究では,視覚特性のシミュレーションによるランダム化を制御できることを生かして,コントラスト損失の簡単な修正を提案する。
- 参考スコア(独自算出の注目度): 19.474628552656764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robotic tasks such as manipulation with visual inputs require image features
that capture the physical properties of the scene, e.g., the position and
configuration of objects. Recently, it has been suggested to learn such
features in an unsupervised manner from simulated, self-supervised, robot
interaction; the idea being that high-level physical properties are well
captured by modern physical simulators, and their representation from visual
inputs may transfer well to the real world. In particular, learning methods
based on noise contrastive estimation have shown promising results. To
robustify the simulation-to-real transfer, domain randomization (DR) was
suggested for learning features that are invariant to irrelevant visual
properties such as textures or lighting. In this work, however, we show that a
naive application of DR to unsupervised learning based on contrastive
estimation does not promote invariance, as the loss function maximizes mutual
information between the features and both the relevant and irrelevant visual
properties. We propose a simple modification of the contrastive loss to fix
this, exploiting the fact that we can control the simulated randomization of
visual properties. Our approach learns physical features that are significantly
more robust to visual domain variation, as we demonstrate using both rigid and
non-rigid objects.
- Abstract(参考訳): 視覚入力による操作のようなロボットタスクは、例えばオブジェクトの位置や構成など、シーンの物理的特性をキャプチャするイメージ機能を必要とする。
近年,シミュレーションや自己教師付きロボットインタラクションから,そのような特徴を教師なしで学ぶことが提案されている。高レベルな物理的特性は現代の物理シミュレータによってよく捉えられ,視覚入力からの表現は現実世界にうまく移される可能性がある。
特に,ノイズコントラスト推定に基づく学習方法は有望な結果を示している。
テクスチャや照明など無関係な視覚特性に不変な学習特徴を学習するために, 領域ランダム化(DR)が提案された。
しかし,本研究では,特徴量と関連性・関連性の両方の視覚特性の相互関係を最大化するため,対照的な推定に基づく教師なし学習へのDRの適用が相違を助長しないことを示す。
本研究では,視覚特性のシミュレーションによるランダム化を制御できることを生かして,コントラスト損失の簡単な修正を提案する。
我々のアプローチは、厳密なオブジェクトと非厳密なオブジェクトの両方を用いることで、視覚領域の変化に対してはるかに堅牢な物理的特徴を学習する。
関連論文リスト
- Unsupervised Generative Feature Transformation via Graph Contrastive Pre-training and Multi-objective Fine-tuning [28.673952870674146]
教師なし特徴変換学習のための測定-事前訓練-ファネチューンパラダイムを開発した。
教師なし特徴集合の実用性測定のために,特徴値の整合性維持の観点から提案する。
生成的変換ファインタニングでは,特徴集合を特徴クロスシーケンス,特徴変換を逐次生成とみなす。
論文 参考訳(メタデータ) (2024-05-27T06:50:00Z) - Learning Action-based Representations Using Invariance [18.1941237781348]
我々は,制御に関係のある遠隔状態の特徴を割引する多段階制御可能性指標を学習するアクションビシミュレーション符号化を導入する。
我々は,報酬のない一様ランダムなデータに基づく行動ビシミュレーション事前学習が,複数の環境におけるサンプル効率を向上させることを実証した。
論文 参考訳(メタデータ) (2024-03-25T02:17:54Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Learning Sim-to-Real Dense Object Descriptors for Robotic Manipulation [4.7246285569677315]
我々はSim-to-Real Dense Object Nets(SRDONs)という,オブジェクトを適切な表現で理解するだけでなく,シミュレートされた実データをピクセル整合性を持った統一された特徴空間にマップする,高密度オブジェクト記述子を提案する。
本研究では,事前学習したSRDONが実世界の訓練をゼロにした各種ロボット作業において,見えない物体や見えない視覚環境の性能を著しく向上させる実験を行った。
論文 参考訳(メタデータ) (2023-04-18T02:28:55Z) - DisPositioNet: Disentangled Pose and Identity in Semantic Image
Manipulation [83.51882381294357]
DisPositioNetは、シーングラフを用いた画像操作のタスクに対して、各オブジェクトのアンタングル表現を学習するモデルである。
我々のフレームワークは、グラフ内の特徴表現と同様に、変分潜在埋め込みの切り離しを可能にする。
論文 参考訳(メタデータ) (2022-11-10T11:47:37Z) - Robust and Controllable Object-Centric Learning through Energy-based
Models [95.68748828339059]
我々の研究は概念的にシンプルで一般的なアプローチであり、エネルギーベースモデルを通してオブジェクト中心の表現を学習する。
既存のアーキテクチャに容易に統合でき、高品質なオブジェクト中心表現を効果的に抽出できることを示す。
論文 参考訳(メタデータ) (2022-10-11T15:11:15Z) - RISP: Rendering-Invariant State Predictor with Differentiable Simulation
and Rendering for Cross-Domain Parameter Estimation [110.4255414234771]
既存のソリューションでは、大量のトレーニングデータが必要か、未知のレンダリング設定への一般化性が欠如している。
本稿では、ドメインのランダム化と微分可能なレンダリング勾配を併用してこの問題に対処する手法を提案する。
提案手法は, 再構成誤差を大幅に低減し, 未知のレンダリング構成間の一般化性が向上する。
論文 参考訳(メタデータ) (2022-05-11T17:59:51Z) - Sim2Real Object-Centric Keypoint Detection and Description [40.58367357980036]
キーポイントの検出と記述はコンピュータビジョンにおいて中心的な役割を果たす。
対象中心の定式化を提案し、各関心点が属する対象をさらに特定する必要がある。
我々はシミュレーションで訓練されたモデルを現実のアプリケーションに一般化できるsim2realコントラスト学習機構を開発した。
論文 参考訳(メタデータ) (2022-02-01T15:00:20Z) - Improving Transferability of Representations via Augmentation-Aware
Self-Supervision [117.15012005163322]
AugSelfは、ランダムに強化された2つのサンプル間の拡張パラメータの違いを学習する補助的な自己教師型損失である。
私たちの直感は、AugSelfが学習表現における拡張認識情報の保存を奨励していることです。
AugSelfは、最新の最先端の表現学習手法に、無視できる追加のトレーニングコストで簡単に組み込むことができる。
論文 参考訳(メタデータ) (2021-11-18T10:43:50Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。