論文の概要: Cross-domain Random Pre-training with Prototypes for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2302.05614v3
- Date: Fri, 22 Mar 2024 09:34:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 23:58:25.544452
- Title: Cross-domain Random Pre-training with Prototypes for Reinforcement Learning
- Title(参考訳): 強化学習のためのプロトタイプを用いたクロスドメインランダム事前学習
- Authors: Xin Liu, Yaran Chen, Haoran Li, Boyu Li, Dongbin Zhao,
- Abstract要約: CRPTproは、新規で効率的で効果的な自己監督型クロスドメインRL事前学習フレームワークである。
CRPTproは、エンコーダの事前トレーニングからデータサンプリングを分離し、デカップリングされたランダムコレクションを提案する。
CRPTproは、11/12のクロスストリームタスクにおいて54%のウォールタイム事前トレーニング時間で、次の最高のProto-RL(C)を著しく上回っている。
- 参考スコア(独自算出の注目度): 13.895837933066243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work has been submitted to the IEEE for possible publication. Copyright may be transferred without notice, after which this version may no longer be accessible. Unsupervised cross-domain Reinforcement Learning (RL) pre-training shows great potential for challenging continuous visual control but poses a big challenge. In this paper, we propose \textbf{C}ross-domain \textbf{R}andom \textbf{P}re-\textbf{T}raining with \textbf{pro}totypes (CRPTpro), a novel, efficient, and effective self-supervised cross-domain RL pre-training framework. CRPTpro decouples data sampling from encoder pre-training, proposing decoupled random collection to easily and quickly generate a qualified cross-domain pre-training dataset. Moreover, a novel prototypical self-supervised algorithm is proposed to pre-train an effective visual encoder that is generic across different domains. Without finetuning, the cross-domain encoder can be implemented for challenging downstream tasks defined in different domains, either seen or unseen. Compared with recent advanced methods, CRPTpro achieves better performance on downstream policy learning without extra training on exploration agents for data collection, greatly reducing the burden of pre-training. We conduct extensive experiments across eight challenging continuous visual-control domains, including balance control, robot locomotion, and manipulation. CRPTpro significantly outperforms the next best Proto-RL(C) on 11/12 cross-domain downstream tasks with only 54\% wall-clock pre-training time, exhibiting state-of-the-art pre-training performance with greatly improved pre-training efficiency. The complete code is available at https://github.com/liuxin0824/CRPTpro.
- Abstract(参考訳): この研究はIEEEに提出された。
著作権は無通知で転送され、その後、このバージョンはアクセスできなくなる。
教師なしのクロスドメイン強化学習(RL)事前学習は、継続的な視覚的制御に挑戦する大きな可能性を示すが、大きな課題となる。
本稿では,新しい,効率的かつ効果的な自己管理型クロスドメインRL事前学習フレームワークである \textbf{C}ross- domain \textbf{R}andom \textbf{P}re-\textbf{T}raining with \textbf{pro}totypes (CRPTpro)を提案する。
CRPTproは、エンコーダ事前トレーニングからデータサンプリングを分離し、分離したランダムコレクションを提案して、適格なクロスドメイン事前トレーニングデータセットを容易かつ迅速に生成する。
さらに、異なる領域にまたがる汎用的な効果的なビジュアルエンコーダを事前学習するために、新しいプロトタイプ自己教師アルゴリズムを提案する。
微調整なしでは、クロスドメインエンコーダは異なるドメインで定義されたダウンストリームタスクに挑戦するために実装できる。
近年の先進的な手法と比較して、CRPTproはデータ収集のための探索エージェントに余分な訓練を加えることなく、下流政策学習の性能を向上し、事前学習の負担を大幅に軽減する。
我々は、バランス制御、ロボットの移動、操作を含む8つの挑戦的な視覚制御領域にわたる広範な実験を行う。
CRPTproは、11/12のクロスドメインタスクにおいて、54\%のウォールタイム事前トレーニング時間で、次の最高のProto-RL(C)を著しく上回り、最先端の事前トレーニング性能を示し、事前トレーニング効率を大幅に改善した。
完全なコードはhttps://github.com/liuxin0824/CRPTproで入手できる。
関連論文リスト
- ExPLoRA: Parameter-Efficient Extended Pre-Training to Adapt Vision Transformers under Domain Shifts [52.1635661239108]
本稿では,事前学習された視覚変換器(ViT)のドメインシフト下での伝達学習を改善するために,ExPLoRAを提案する。
我々の実験は、衛星画像の最先端の成果を実証し、完全な事前学習や微調整のViTよりも優れています。
論文 参考訳(メタデータ) (2024-06-16T15:14:56Z) - Cross-Domain Pre-training with Language Models for Transferable Time Series Representations [32.8353465232791]
CrossTimeNetは、さまざまなドメインから転送可能な知識を学ぶための、新しいクロスドメインSSL学習フレームワークである。
CrossTimeNetの重要な特徴の1つは、新しく設計された時系列トークン化モジュールである。
我々は、様々な時系列分類領域にわたる実世界のシナリオにおいて広範な実験を行う。
論文 参考訳(メタデータ) (2024-03-19T02:32:47Z) - DEYO: DETR with YOLO for End-to-End Object Detection [0.0]
純粋な畳み込み構造エンコーダであるDETRとYOLO(DEYO)を併用した初のリアルタイムエンドツーエンドオブジェクト検出モデルを提案する。
トレーニングの第一段階では、エンドツーエンド検出器の背骨と首を初期化するために、1対1のマッチング戦略で事前訓練された古典的な検出器を用いる。
トレーニングの第2段階では,エンド・ツー・エンド検出器の背骨と頸部を凍結し,デコーダのトレーニングをスクラッチから行う必要がある。
論文 参考訳(メタデータ) (2024-02-26T07:48:19Z) - FusDom: Combining In-Domain and Out-of-Domain Knowledge for Continuous
Self-Supervised Learning [54.9235160379917]
FusDomはSSLベースの継続事前トレーニングのためのシンプルで斬新な方法論である。
FusDomは、過去に見られる概念を忘れずに頑健で適応的な表現を学ぶ。
論文 参考訳(メタデータ) (2023-12-20T13:50:05Z) - AlignDet: Aligning Pre-training and Fine-tuning in Object Detection [38.256555424079664]
AlignDetは統合された事前トレーニングフレームワークで、様々な既存の検出器に適応して、相違を緩和することができる。
検出アルゴリズム、モデルバックボーン、データ設定、トレーニングスケジュールなど、さまざまなプロトコル間で大幅な改善が達成できる。
論文 参考訳(メタデータ) (2023-07-20T17:55:14Z) - RanPAC: Random Projections and Pre-trained Models for Continual Learning [59.07316955610658]
継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を学習することを目的としている。
本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-07-05T12:49:02Z) - The Effects of In-domain Corpus Size on pre-training BERT [0.0]
バイオメディカルコーパスの大きさの異なる変換器(BERT)による双方向表現の事前訓練を行った。
その結果、比較的少数のドメイン内データ(4GB)をトレーニング段階の制限で事前トレーニングすることで、下流ドメイン固有のNLPタスクのパフォーマンスが向上することが示された。
論文 参考訳(メタデータ) (2022-12-15T15:49:27Z) - DE-CROP: Data-efficient Certified Robustness for Pretrained Classifiers [21.741026088202126]
そこで本研究では,いくつかのトレーニングサンプルを用いて,事前学習したモデルのロバスト性を証明する新しい手法を提案する。
提案手法は,各トレーニングサンプルに対応するクラス境界および補間標本を生成する。
複数のベンチマークデータセットのベースラインに対する大幅な改善と、課題のあるブラックボックス設定の下でも同様のパフォーマンスを報告しています。
論文 参考訳(メタデータ) (2022-10-17T10:41:18Z) - Distributed Adversarial Training to Robustify Deep Neural Networks at
Scale [100.19539096465101]
現在のディープニューラルネットワーク(DNN)は、入力に対する敵の摂動が分類を変更したり操作したりする敵の攻撃に対して脆弱である。
このような攻撃を防御するために、敵の訓練(AT)として知られる効果的なアプローチが、堅牢な訓練を緩和するために示されている。
複数のマシンにまたがって実装された大規模バッチ対逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-13T15:39:43Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - Pre-training Graph Neural Network for Cross Domain Recommendation [58.057687253631826]
推薦システムは、ユーザ/イテムの埋め込みを学習する中心となるアイテムに対するユーザの潜在的関心を予測する。
グラフ表現学習から事前学習を行う現代美術に着想を得て,クロスドメインレコメンデーションのための事前学習および微調整図を提案する。
我々は,グラフエンコーダの自己教師型事前学習を採用するPCRec (Pre-training Graph Neural Network for Cross-Domain Recommendation) を考案した。
論文 参考訳(メタデータ) (2021-11-16T07:34:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。