論文の概要: Cross-domain Random Pre-training with Prototypes for Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2302.05614v1
- Date: Sat, 11 Feb 2023 06:32:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 19:27:34.251928
- Title: Cross-domain Random Pre-training with Prototypes for Reinforcement
Learning
- Title(参考訳): 強化学習のためのプロトタイプを用いたクロスドメインランダム事前学習
- Authors: Xin Liu, Yaran Chen, Haoran Li, Boyu Li and Dongbin Zhao
- Abstract要約: タスク非依存型クロスドメイン事前学習は、画像ベース強化学習(RL)において大きな可能性を秘めている
CRPTproは、画像ベースのRLのプロトタイプを備えたクロスドメインのランダム事前訓練フレームワークである。
CRPTproはクロスドメインランダムポリシーを使用して、複数のドメインから多様なデータを簡単かつ迅速にサンプリングし、事前学習効率を向上させる。
- 参考スコア(独自算出の注目度): 14.395982222675114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Task-agnostic cross-domain pre-training shows great potential in image-based
Reinforcement Learning (RL) but poses a big challenge. In this paper, we
propose CRPTpro, a Cross-domain self-supervised Random Pre-Training framework
with prototypes for image-based RL. CRPTpro employs cross-domain random policy
to easily and quickly sample diverse data from multiple domains, to improve
pre-training efficiency. Moreover, prototypical representation learning with a
novel intrinsic loss is proposed to pre-train an effective and generic encoder
across different domains. Without finetuning, the cross-domain encoder can be
implemented for challenging downstream visual-control RL tasks defined in
different domains efficiently. Compared with prior arts like APT and Proto-RL,
CRPTpro achieves better performance on cross-domain downstream RL tasks without
extra training on exploration agents for expert data collection, greatly
reducing the burden of pre-training. Experiments on DeepMind Control suite
(DMControl) demonstrate that CRPTpro outperforms APT significantly on 11/12
cross-domain RL tasks with only 39% pre-training hours, becoming a
state-of-the-art cross-domain pre-training method in both policy learning
performance and pre-training efficiency. The complete code will be released at
https://github.com/liuxin0824/CRPTpro.
- Abstract(参考訳): タスク非依存のクロスドメイン事前トレーニングは、イメージベース強化学習(RL)において大きな可能性を秘めているが、大きな課題となっている。
本稿では,画像ベースRLのプロトタイプを用いたクロスドメイン自己教師型ランダム事前学習フレームワークCRPTproを提案する。
CRPTproはクロスドメインランダムポリシーを使用して、複数のドメインから多様なデータを簡単かつ迅速にサンプリングし、事前学習効率を向上させる。
さらに,異なる領域にまたがる有効で汎用的なエンコーダを事前学習するために,新しい内在的損失を伴う原型表現学習を提案する。
微調整なしで、クロスドメインエンコーダは、異なるドメインで定義された下流視覚制御RLタスクに効率よく挑戦するために実装できる。
APTやProto-RLといった先行技術と比較して、CRPTproは専門家データ収集のための探索エージェントを余分に訓練することなく、クロスドメインの下流RLタスクのパフォーマンス向上を実現し、事前学習の負担を大幅に軽減する。
DeepMind Control Suite(DMControl)の実験では、CRPTproは11/12のクロスドメインRLタスクにおいてわずか39%の事前トレーニング時間でAPTを著しく上回り、政策学習性能と事前トレーニング効率の両方において最先端のクロスドメイン事前トレーニング方法となった。
完全なコードはhttps://github.com/liuxin0824/CRPTproでリリースされる。
関連論文リスト
- ExPLoRA: Parameter-Efficient Extended Pre-Training to Adapt Vision Transformers under Domain Shifts [52.1635661239108]
本稿では,事前学習された視覚変換器(ViT)のドメインシフト下での伝達学習を改善するために,ExPLoRAを提案する。
我々の実験は、衛星画像の最先端の成果を実証し、完全な事前学習や微調整のViTよりも優れています。
論文 参考訳(メタデータ) (2024-06-16T15:14:56Z) - Cross-Domain Pre-training with Language Models for Transferable Time Series Representations [32.8353465232791]
CrossTimeNetは、さまざまなドメインから転送可能な知識を学ぶための、新しいクロスドメインSSL学習フレームワークである。
CrossTimeNetの重要な特徴の1つは、新しく設計された時系列トークン化モジュールである。
我々は、様々な時系列分類領域にわたる実世界のシナリオにおいて広範な実験を行う。
論文 参考訳(メタデータ) (2024-03-19T02:32:47Z) - DEYO: DETR with YOLO for End-to-End Object Detection [0.0]
純粋な畳み込み構造エンコーダであるDETRとYOLO(DEYO)を併用した初のリアルタイムエンドツーエンドオブジェクト検出モデルを提案する。
トレーニングの第一段階では、エンドツーエンド検出器の背骨と首を初期化するために、1対1のマッチング戦略で事前訓練された古典的な検出器を用いる。
トレーニングの第2段階では,エンド・ツー・エンド検出器の背骨と頸部を凍結し,デコーダのトレーニングをスクラッチから行う必要がある。
論文 参考訳(メタデータ) (2024-02-26T07:48:19Z) - FusDom: Combining In-Domain and Out-of-Domain Knowledge for Continuous
Self-Supervised Learning [54.9235160379917]
FusDomはSSLベースの継続事前トレーニングのためのシンプルで斬新な方法論である。
FusDomは、過去に見られる概念を忘れずに頑健で適応的な表現を学ぶ。
論文 参考訳(メタデータ) (2023-12-20T13:50:05Z) - AlignDet: Aligning Pre-training and Fine-tuning in Object Detection [38.256555424079664]
AlignDetは統合された事前トレーニングフレームワークで、様々な既存の検出器に適応して、相違を緩和することができる。
検出アルゴリズム、モデルバックボーン、データ設定、トレーニングスケジュールなど、さまざまなプロトコル間で大幅な改善が達成できる。
論文 参考訳(メタデータ) (2023-07-20T17:55:14Z) - RanPAC: Random Projections and Pre-trained Models for Continual Learning [59.07316955610658]
継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を学習することを目的としている。
本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-07-05T12:49:02Z) - The Effects of In-domain Corpus Size on pre-training BERT [0.0]
バイオメディカルコーパスの大きさの異なる変換器(BERT)による双方向表現の事前訓練を行った。
その結果、比較的少数のドメイン内データ(4GB)をトレーニング段階の制限で事前トレーニングすることで、下流ドメイン固有のNLPタスクのパフォーマンスが向上することが示された。
論文 参考訳(メタデータ) (2022-12-15T15:49:27Z) - DE-CROP: Data-efficient Certified Robustness for Pretrained Classifiers [21.741026088202126]
そこで本研究では,いくつかのトレーニングサンプルを用いて,事前学習したモデルのロバスト性を証明する新しい手法を提案する。
提案手法は,各トレーニングサンプルに対応するクラス境界および補間標本を生成する。
複数のベンチマークデータセットのベースラインに対する大幅な改善と、課題のあるブラックボックス設定の下でも同様のパフォーマンスを報告しています。
論文 参考訳(メタデータ) (2022-10-17T10:41:18Z) - Distributed Adversarial Training to Robustify Deep Neural Networks at
Scale [100.19539096465101]
現在のディープニューラルネットワーク(DNN)は、入力に対する敵の摂動が分類を変更したり操作したりする敵の攻撃に対して脆弱である。
このような攻撃を防御するために、敵の訓練(AT)として知られる効果的なアプローチが、堅牢な訓練を緩和するために示されている。
複数のマシンにまたがって実装された大規模バッチ対逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-13T15:39:43Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - Pre-training Graph Neural Network for Cross Domain Recommendation [58.057687253631826]
推薦システムは、ユーザ/イテムの埋め込みを学習する中心となるアイテムに対するユーザの潜在的関心を予測する。
グラフ表現学習から事前学習を行う現代美術に着想を得て,クロスドメインレコメンデーションのための事前学習および微調整図を提案する。
我々は,グラフエンコーダの自己教師型事前学習を採用するPCRec (Pre-training Graph Neural Network for Cross-Domain Recommendation) を考案した。
論文 参考訳(メタデータ) (2021-11-16T07:34:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。