論文の概要: Policy-Induced Self-Supervision Improves Representation Finetuning in
Visual RL
- arxiv url: http://arxiv.org/abs/2302.06009v1
- Date: Sun, 12 Feb 2023 21:52:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 17:10:06.311848
- Title: Policy-Induced Self-Supervision Improves Representation Finetuning in
Visual RL
- Title(参考訳): ポリシーによる自己監督による視覚RLの表現微細化の改善
- Authors: S\'ebastien M. R. Arnold, Fei Sha
- Abstract要約: 視覚的知覚に基づくRLにおける目標タスクに対して、ソースタスクで事前訓練された表現を転送する方法について検討する。
我々は、事前訓練された表現を凍結または微調整する2つの一般的なアプローチを分析する。
- 参考スコア(独自算出の注目度): 19.32387263597031
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study how to transfer representations pretrained on source tasks to target
tasks in visual percept based RL. We analyze two popular approaches: freezing
or finetuning the pretrained representations. Empirical studies on a set of
popular tasks reveal several properties of pretrained representations. First,
finetuning is required even when pretrained representations perfectly capture
the information required to solve the target task. Second, finetuned
representations improve learnability and are more robust to noise. Third,
pretrained bottom layers are task-agnostic and readily transferable to new
tasks, while top layers encode task-specific information and require
adaptation. Building on these insights, we propose a self-supervised objective
that clusters representations according to the policy they induce, as opposed
to traditional representation similarity measures which are policy-agnostic
(e.g. Euclidean norm, cosine similarity). Together with freezing the bottom
layers, this objective results in significantly better representation than
frozen, finetuned, and self-supervised alternatives on a wide range of
benchmarks.
- Abstract(参考訳): 視覚的知覚に基づくRLにおける目標タスクに対して、ソースタスクで事前訓練された表現を転送する方法を検討する。
我々は、事前訓練された表現を凍結または微調整する2つの一般的なアプローチを分析する。
一般的なタスクの集合に関する実証的研究は、事前訓練された表現のいくつかの特性を明らかにする。
まず、事前訓練された表現が目標タスクの解決に必要な情報を完璧に捉えた場合でも、微調整が必要となる。
第二に、微調整された表現は学習性を改善し、ノイズに対してより堅牢である。
第3に、事前トレーニングされたボトムレイヤはタスクに依存しず、新しいタスクに簡単に転送できる。
これらの知見に基づいて,政策非依存(ユークリッドノルム,コサイン類似性など)の伝統的な表現類似性尺度とは対照的に,彼らが誘導する政策に従って表現をクラスター化する自己教師付き目標を提案する。
底層を凍結させることで、この目的は幅広いベンチマークで凍結、微調整、自己監督の代替よりもはるかに優れた表現をもたらす。
関連論文リスト
- Foundation Policies with Hilbert Representations [61.19488199476655]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Improving One-class Recommendation with Multi-tasking on Various
Preference Intensities [1.8416014644193064]
一流のレコメンデーションでは、ユーザの暗黙のフィードバックに基づいてレコメンデーションを行う必要があります。
暗黙的なフィードバックから各信号の様々な好み強度を考慮に入れたマルチタスクフレームワークを提案する。
提案手法は,3つの大規模実世界のベンチマークデータセットに対して,最先端の手法よりも大きなマージンで性能を向上する。
論文 参考訳(メタデータ) (2024-01-18T18:59:55Z) - Representation Abstractions as Incentives for Reinforcement Learning
Agents: A Robotic Grasping Case Study [3.4777703321218225]
本研究は、特定のロボットタスクを解くためのエージェントのインセンティブ化における様々な状態表現の効果について検討する。
状態表現の抽象化の連続体は、完全なシステム知識を持つモデルベースのアプローチから始まる。
シミュレーションにおける課題の解決と実際のロボットへの学習方針の伝達性に対する各表現の効果について検討する。
論文 参考訳(メタデータ) (2023-09-21T11:41:22Z) - Probabilistic Self-supervised Learning via Scoring Rules Minimization [19.347097627898876]
本稿では,Scoring Rule Minimization (ProSMIN) を用いた確率論的自己教師型学習を提案する。
提案手法は,大規模データセットを用いた多種多様な実験において,自己教師付きベースラインを超える精度とキャリブレーションを実現する。
論文 参考訳(メタデータ) (2023-09-05T08:48:25Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Self-Supervised Learning via Maximum Entropy Coding [57.56570417545023]
本稿では,表現の構造を明示的に最適化する原理的目的として,最大エントロピー符号化(MEC)を提案する。
MECは、特定のプリテキストタスクに基づいて、以前のメソッドよりもより一般化可能な表現を学ぶ。
ImageNetリニアプローブだけでなく、半教師付き分類、オブジェクト検出、インスタンスセグメンテーション、オブジェクトトラッキングなど、さまざまなダウンストリームタスクに対して一貫して最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-20T17:58:30Z) - Provable Benefits of Representational Transfer in Reinforcement Learning [59.712501044999875]
本稿では,RLにおける表現伝達の問題について検討し,エージェントがまず複数のソースタスクを事前訓練し,共有表現を発見する。
本稿では,ソースタスクに対する生成的アクセスが与えられた場合,次に続く線形RL手法がほぼ最適ポリシーに迅速に収束する表現を発見できることを示す。
論文 参考訳(メタデータ) (2022-05-29T04:31:29Z) - Explaining, Evaluating and Enhancing Neural Networks' Learned
Representations [2.1485350418225244]
より効率的で効率的な表現への障害ではなく、いかに説明可能性が助けになるかを示す。
我々は,2つの新しいスコアを定義して,潜伏埋め込みの難易度と難易度を評価する。
表現学習課題の訓練において,提案したスコアを制約として採用することで,モデルの下流性能が向上することを示す。
論文 参考訳(メタデータ) (2022-02-18T19:00:01Z) - Learning to Relate Depth and Semantics for Unsupervised Domain
Adaptation [87.1188556802942]
教師なしドメイン適応(UDA)設定において,視覚的タスク関係を符号化してモデル性能を向上させる手法を提案する。
本稿では,意味的および深さ的予測のタスク依存性を符号化する新しいクロスタスク関係層(ctrl)を提案する。
さらに、セマンティック擬似ラベルを利用してターゲットドメインを監督する反復自己学習(ISL)トレーニングスキームを提案する。
論文 参考訳(メタデータ) (2021-05-17T13:42:09Z) - Conditional Meta-Learning of Linear Representations [57.90025697492041]
表現学習のための標準メタラーニングは、複数のタスク間で共有される共通の表現を見つけることを目的とする。
本研究では,タスクの側情報を手作業に適した表現にマッピングし,条件付け関数を推定することで,この問題を克服する。
この利点を実用的に活用できるメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-30T12:02:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。