Fugu-MT 論文翻訳(概要): Cross-domain Random Pre-training with Prototypes for Reinforcement Learning

論文の概要: Cross-domain Random Pre-training with Prototypes for Reinforcement Learning

arxiv url: http://arxiv.org/abs/2302.05614v1
Date: Sat, 11 Feb 2023 06:32:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-14 19:27:34.251928
Title: Cross-domain Random Pre-training with Prototypes for Reinforcement Learning
Title（参考訳）: 強化学習のためのプロトタイプを用いたクロスドメインランダム事前学習
Authors: Xin Liu, Yaran Chen, Haoran Li, Boyu Li and Dongbin Zhao
Abstract要約: タスク非依存型クロスドメイン事前学習は、画像ベース強化学習(RL)において大きな可能性を秘めている CRPTproは、画像ベースのRLのプロトタイプを備えたクロスドメインのランダム事前訓練フレームワークである。 CRPTproはクロスドメインランダムポリシーを使用して、複数のドメインから多様なデータを簡単かつ迅速にサンプリングし、事前学習効率を向上させる。
参考スコア（独自算出の注目度）: 14.395982222675114
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Task-agnostic cross-domain pre-training shows great potential in image-based Reinforcement Learning (RL) but poses a big challenge. In this paper, we propose CRPTpro, a Cross-domain self-supervised Random Pre-Training framework with prototypes for image-based RL. CRPTpro employs cross-domain random policy to easily and quickly sample diverse data from multiple domains, to improve pre-training efficiency. Moreover, prototypical representation learning with a novel intrinsic loss is proposed to pre-train an effective and generic encoder across different domains. Without finetuning, the cross-domain encoder can be implemented for challenging downstream visual-control RL tasks defined in different domains efficiently. Compared with prior arts like APT and Proto-RL, CRPTpro achieves better performance on cross-domain downstream RL tasks without extra training on exploration agents for expert data collection, greatly reducing the burden of pre-training. Experiments on DeepMind Control suite (DMControl) demonstrate that CRPTpro outperforms APT significantly on 11/12 cross-domain RL tasks with only 39% pre-training hours, becoming a state-of-the-art cross-domain pre-training method in both policy learning performance and pre-training efficiency. The complete code will be released at https://github.com/liuxin0824/CRPTpro.
Abstract（参考訳）: タスク非依存のクロスドメイン事前トレーニングは、イメージベース強化学習(RL)において大きな可能性を秘めているが、大きな課題となっている。本稿では,画像ベースRLのプロトタイプを用いたクロスドメイン自己教師型ランダム事前学習フレームワークCRPTproを提案する。 CRPTproはクロスドメインランダムポリシーを使用して、複数のドメインから多様なデータを簡単かつ迅速にサンプリングし、事前学習効率を向上させる。さらに,異なる領域にまたがる有効で汎用的なエンコーダを事前学習するために,新しい内在的損失を伴う原型表現学習を提案する。微調整なしで、クロスドメインエンコーダは、異なるドメインで定義された下流視覚制御RLタスクに効率よく挑戦するために実装できる。 APTやProto-RLといった先行技術と比較して、CRPTproは専門家データ収集のための探索エージェントを余分に訓練することなく、クロスドメインの下流RLタスクのパフォーマンス向上を実現し、事前学習の負担を大幅に軽減する。 DeepMind Control Suite(DMControl)の実験では、CRPTproは11/12のクロスドメインRLタスクにおいてわずか39%の事前トレーニング時間でAPTを著しく上回り、政策学習性能と事前トレーニング効率の両方において最先端のクロスドメイン事前トレーニング方法となった。完全なコードはhttps://github.com/liuxin0824/CRPTproでリリースされる。

関連論文リスト

Towards Better Alignment: Training Diffusion Models with Reinforcement Learning Against Sparse Rewards [52.90573877727541]
拡散モデル微調整では強化学習(RL)が検討されている。 RLの有効性はスパース報酬の挑戦によって制限される。 $textB2text-DiffuRL$は既存の最適化アルゴリズムと互換性がある。
論文参考訳（メタデータ） (2025-03-14T09:45:19Z)
ExPLoRA: Parameter-Efficient Extended Pre-Training to Adapt Vision Transformers under Domain Shifts [52.1635661239108]
本稿では,事前学習された視覚変換器(ViT)のドメインシフト下での伝達学習を改善するために,ExPLoRAを提案する。我々の実験は、衛星画像の最先端の成果を実証し、完全な事前学習や微調整のViTよりも優れています。
論文参考訳（メタデータ） (2024-06-16T15:14:56Z)
Cross-Domain Pre-training with Language Models for Transferable Time Series Representations [32.8353465232791]
CrossTimeNetは、さまざまなドメインから転送可能な知識を学ぶための、新しいクロスドメインSSL学習フレームワークである。 CrossTimeNetの重要な特徴の1つは、新しく設計された時系列トークン化モジュールである。我々は、様々な時系列分類領域にわたる実世界のシナリオにおいて広範な実験を行う。
論文参考訳（メタデータ） (2024-03-19T02:32:47Z)
DEYO: DETR with YOLO for End-to-End Object Detection [0.0]
純粋な畳み込み構造エンコーダであるDETRとYOLO(DEYO)を併用した初のリアルタイムエンドツーエンドオブジェクト検出モデルを提案する。トレーニングの第一段階では、エンドツーエンド検出器の背骨と首を初期化するために、1対1のマッチング戦略で事前訓練された古典的な検出器を用いる。トレーニングの第2段階では,エンド・ツー・エンド検出器の背骨と頸部を凍結し,デコーダのトレーニングをスクラッチから行う必要がある。
論文参考訳（メタデータ） (2024-02-26T07:48:19Z)
FusDom: Combining In-Domain and Out-of-Domain Knowledge for Continuous Self-Supervised Learning [54.9235160379917]
FusDomはSSLベースの継続事前トレーニングのためのシンプルで斬新な方法論である。 FusDomは、過去に見られる概念を忘れずに頑健で適応的な表現を学ぶ。
論文参考訳（メタデータ） (2023-12-20T13:50:05Z)
AlignDet: Aligning Pre-training and Fine-tuning in Object Detection [38.256555424079664]
AlignDetは統合された事前トレーニングフレームワークで、様々な既存の検出器に適応して、相違を緩和することができる。検出アルゴリズム、モデルバックボーン、データ設定、トレーニングスケジュールなど、さまざまなプロトコル間で大幅な改善が達成できる。
論文参考訳（メタデータ） (2023-07-20T17:55:14Z)
RanPAC: Random Projections and Pre-trained Models for Continual Learning [59.07316955610658]
継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を学習することを目的としている。本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。
論文参考訳（メタデータ） (2023-07-05T12:49:02Z)
The Effects of In-domain Corpus Size on pre-training BERT [0.0]
バイオメディカルコーパスの大きさの異なる変換器(BERT)による双方向表現の事前訓練を行った。その結果、比較的少数のドメイン内データ(4GB)をトレーニング段階の制限で事前トレーニングすることで、下流ドメイン固有のNLPタスクのパフォーマンスが向上することが示された。
論文参考訳（メタデータ） (2022-12-15T15:49:27Z)
DE-CROP: Data-efficient Certified Robustness for Pretrained Classifiers [21.741026088202126]
そこで本研究では,いくつかのトレーニングサンプルを用いて,事前学習したモデルのロバスト性を証明する新しい手法を提案する。提案手法は,各トレーニングサンプルに対応するクラス境界および補間標本を生成する。複数のベンチマークデータセットのベースラインに対する大幅な改善と、課題のあるブラックボックス設定の下でも同様のパフォーマンスを報告しています。
論文参考訳（メタデータ） (2022-10-17T10:41:18Z)
Distributed Adversarial Training to Robustify Deep Neural Networks at Scale [100.19539096465101]
現在のディープニューラルネットワーク(DNN)は、入力に対する敵の摂動が分類を変更したり操作したりする敵の攻撃に対して脆弱である。このような攻撃を防御するために、敵の訓練(AT)として知られる効果的なアプローチが、堅牢な訓練を緩和するために示されている。複数のマシンにまたがって実装された大規模バッチ対逆トレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2022-06-13T15:39:43Z)
Self-supervised Domain Adaptation in Crowd Counting [12.285224071644118]
この研究は、未ラベルのデータセット上でより堅牢な予測を生成するために、既存のデータセットを基礎的な真実で利用する新しいアプローチを導入している。ネットワークはラベル付きデータでトレーニングされる一方で、ターゲットドメインからのラベルのないサンプルもトレーニングプロセスに追加される。上海技術、UCF_CC_50、UCF-QNRFデータセットに関する実験は、他の最先端技術よりも、我々の手法をより一般化した改善を証明している。
論文参考訳（メタデータ） (2022-06-07T16:35:08Z)
Self-Supervised Pre-Training for Transformer-Based Person Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文参考訳（メタデータ） (2021-11-23T18:59:08Z)
Pre-training Graph Neural Network for Cross Domain Recommendation [58.057687253631826]
推薦システムは、ユーザ/イテムの埋め込みを学習する中心となるアイテムに対するユーザの潜在的関心を予測する。グラフ表現学習から事前学習を行う現代美術に着想を得て,クロスドメインレコメンデーションのための事前学習および微調整図を提案する。我々は,グラフエンコーダの自己教師型事前学習を採用するPCRec (Pre-training Graph Neural Network for Cross-Domain Recommendation) を考案した。
論文参考訳（メタデータ） (2021-11-16T07:34:42Z)
Rethinking supervised pre-training for better downstream transferring [46.09030708111374]
本稿では,Leave-One-Out K-Nearest-Neighbor(LOOK)に基づく教師付き事前学習手法を提案する。上流タスクをオーバーフィットさせる問題は、各イメージにクラスラベルを共有することだけを要求することで解決される。提案手法を大規模データセットに対して効率的に実装する手法を開発した。
論文参考訳（メタデータ） (2021-10-12T13:57:38Z)
Towards Unsupervised Sketch-based Image Retrieval [126.77787336692802]
本稿では,教師なし表現学習とスケッチ写真領域アライメントを同時に行う新しいフレームワークを提案する。このフレームワークは,新しい教師なし設定では優れた性能を達成し,ゼロショット設定では最先端以上の性能を発揮する。
論文参考訳（メタデータ） (2021-05-18T02:38:22Z)
Self-Supervised Pretraining Improves Self-Supervised Pretraining [83.1423204498361]
自己教師付き事前トレーニングには、高価で長い計算と大量のデータが必要で、データ拡張に敏感である。本稿では,既存の事前学習モデルを用いて事前学習プロセスを初期化することにより,収束時間を短縮し,精度を向上させる階層的事前学習(HPT)について検討する。 HPTが最大80倍速く収束し、タスク全体の精度が向上し、自己監視された事前トレーニングプロセスの堅牢性が、画像増強ポリシーまたは事前トレーニングデータの量の変化に改善されることを示します。
論文参考訳（メタデータ） (2021-03-23T17:37:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。