論文の概要: Natural Language Can Help Bridge the Sim2Real Gap
- arxiv url: http://arxiv.org/abs/2405.10020v2
- Date: Tue, 2 Jul 2024 07:29:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 07:09:19.898074
- Title: Natural Language Can Help Bridge the Sim2Real Gap
- Title(参考訳): 自然言語がSim2Realギャップの橋渡しに役立つ
- Authors: Albert Yu, Adeline Foote, Raymond Mooney, Roberto Martín-Martín,
- Abstract要約: Sim2Realは、現実世界のターゲットドメインでデータ不足を克服するための有望なパラダイムである。
本稿では,画像の自然言語記述を領域間の統一信号として用いることを提案する。
言語記述を予測するために、画像エンコーダをトレーニングすることは、有用な、データ効率の良い事前学習ステップとなることを実証する。
- 参考スコア(独自算出の注目度): 9.458180590551715
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The main challenge in learning image-conditioned robotic policies is acquiring a visual representation conducive to low-level control. Due to the high dimensionality of the image space, learning a good visual representation requires a considerable amount of visual data. However, when learning in the real world, data is expensive. Sim2Real is a promising paradigm for overcoming data scarcity in the real-world target domain by using a simulator to collect large amounts of cheap data closely related to the target task. However, it is difficult to transfer an image-conditioned policy from sim to real when the domains are very visually dissimilar. To bridge the sim2real visual gap, we propose using natural language descriptions of images as a unifying signal across domains that captures the underlying task-relevant semantics. Our key insight is that if two image observations from different domains are labeled with similar language, the policy should predict similar action distributions for both images. We demonstrate that training the image encoder to predict the language description or the distance between descriptions of a sim or real image serves as a useful, data-efficient pretraining step that helps learn a domain-invariant image representation. We can then use this image encoder as the backbone of an IL policy trained simultaneously on a large amount of simulated and a handful of real demonstrations. Our approach outperforms widely used prior sim2real methods and strong vision-language pretraining baselines like CLIP and R3M by 25 to 40%. See additional videos and materials at https://robin-lab.cs.utexas.edu/lang4sim2real/.
- Abstract(参考訳): イメージコンディショニングされたロボットポリシーを学ぶ上での大きな課題は、低レベル制御による視覚的表現を取得することである。
画像空間の高次元性のため、優れた視覚表現を学ぶには、かなりの量の視覚的データが必要である。
しかし、現実世界で学ぶ場合、データは高価である。
Sim2Realは、現実のターゲットドメインにおけるデータ不足を克服するために、シミュレータを使用して、ターゲットタスクと密接に関連する大量の安価なデータを収集する、有望なパラダイムである。
しかし、ドメインが非常に視覚的に異なる場合、画像条件のポリシーをsimからrealに転送することは困難である。
そこで本研究では,課題関連セマンティクスをキャプチャする領域間の統一信号として,画像の自然言語記述を用いる手法を提案する。
我々の重要な洞察は、異なる領域からの2つの画像観察が類似した言語でラベル付けされている場合、このポリシーは両方の画像に対して同様の行動分布を予測するべきであるということである。
画像エンコーダを訓練して、シムや実画像の記述間の言語記述や距離を予測することは、ドメイン不変の画像表現の学習に役立つ有用なデータ効率の事前学習ステップとなることを実証する。
次に、このイメージエンコーダを、大量のシミュレートされた実演と少数の実演に基づいて同時にトレーニングされたILポリシーのバックボーンとして使用することができる。
従来のsim2real手法とCLIPやR3Mのような強力な視覚言語事前学習ベースラインを25~40%向上させる。
追加のビデオや資料はhttps://robin-lab.cs.utexas.edu/lang4sim2real/を参照。
関連論文リスト
- Towards Pragmatic Semantic Image Synthesis for Urban Scenes [4.36080478413575]
合成画像とラベル付きデータセットとラベルなしの実画像付きデータセットが与えられた場合、入力マスクの内容と実際の画像の外観で画像を生成することができるモデルを学ぶことが目的である。
合成画像は, パッチレベルでの高次特徴の違いをペナルティ化することにより, 生成画像の内容のガイドとして活用する。
対象領域のセマンティックな分布に過度に適合する1つの識別器を用いた以前の研究とは対照的に、画像全体の識別器と画像パッチ上のマルチスケール識別器を用いる。
論文 参考訳(メタデータ) (2023-05-16T18:01:12Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - AptSim2Real: Approximately-Paired Sim-to-Real Image Translation [8.208569626646035]
Sim-to-real Transferは、シミュレーションされた画像を修正して、現実世界のデータにマッチさせる。
AptSim2Realは、シミュレーターが照明、環境、コンポジションの点で現実世界のシーンに似たシーンをゆるやかに生成できるという事実を活用している。
FIDスコアは最大で24%向上し, 質的, 定量的な改善が得られた。
論文 参考訳(メタデータ) (2023-03-09T06:18:44Z) - Sim2real Transfer Learning for Point Cloud Segmentation: An Industrial
Application Case on Autonomous Disassembly [55.41644538483948]
我々は,点クラウドデータにsim2realTransfer Learningを用いた産業アプリケーションケースを提案する。
合成ポイントクラウドデータの生成と処理方法に関する洞察を提供する。
この問題に対処するために、パッチベースの新しいアテンションネットワークも提案されている。
論文 参考訳(メタデータ) (2023-01-12T14:00:37Z) - A Shared Representation for Photorealistic Driving Simulators [83.5985178314263]
本稿では、識別器アーキテクチャを再考することにより、生成画像の品質を向上させることを提案する。
シーンセグメンテーションマップや人体ポーズといったセマンティックインプットによって画像が生成されるという問題に焦点が当てられている。
我々は,意味的セグメンテーション,コンテンツ再構成,および粗い粒度の逆解析を行うのに十分な情報をエンコードする,共有潜在表現を学習することを目指している。
論文 参考訳(メタデータ) (2021-12-09T18:59:21Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z) - Curious Representation Learning for Embodied Intelligence [81.21764276106924]
近年,自己指導型表現学習は顕著な成功を収めている。
しかし、真にインテリジェントなエージェントを構築するためには、環境から学習できる表現学習アルゴリズムを構築する必要がある。
本稿では,強化学習方針と視覚的表現モデルを同時に学習する,好奇心をそそる表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-03T17:59:20Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - Action Image Representation: Learning Scalable Deep Grasping Policies
with Zero Real World Data [12.554739620645917]
Action Imageは画像としてグリップの提案を表し、深い畳み込みネットワークを使用してグリップ品質を推測する。
この表現は、色画像(RGB)、深度画像(D)、組み合わせ色深度(RGB-D)など様々な入力に作用することを示す。
論文 参考訳(メタデータ) (2020-05-13T21:40:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。