Fugu-MT 論文翻訳(概要): Policy-Induced Self-Supervision Improves Representation Finetuning in Visual RL

論文の概要: Policy-Induced Self-Supervision Improves Representation Finetuning in Visual RL

arxiv url: http://arxiv.org/abs/2302.06009v1
Date: Sun, 12 Feb 2023 21:52:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-14 17:10:06.311848
Title: Policy-Induced Self-Supervision Improves Representation Finetuning in Visual RL
Title（参考訳）: ポリシーによる自己監督による視覚RLの表現微細化の改善
Authors: S\'ebastien M. R. Arnold, Fei Sha
Abstract要約: 視覚的知覚に基づくRLにおける目標タスクに対して、ソースタスクで事前訓練された表現を転送する方法について検討する。我々は、事前訓練された表現を凍結または微調整する2つの一般的なアプローチを分析する。
参考スコア（独自算出の注目度）: 19.32387263597031
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We study how to transfer representations pretrained on source tasks to target tasks in visual percept based RL. We analyze two popular approaches: freezing or finetuning the pretrained representations. Empirical studies on a set of popular tasks reveal several properties of pretrained representations. First, finetuning is required even when pretrained representations perfectly capture the information required to solve the target task. Second, finetuned representations improve learnability and are more robust to noise. Third, pretrained bottom layers are task-agnostic and readily transferable to new tasks, while top layers encode task-specific information and require adaptation. Building on these insights, we propose a self-supervised objective that clusters representations according to the policy they induce, as opposed to traditional representation similarity measures which are policy-agnostic (e.g. Euclidean norm, cosine similarity). Together with freezing the bottom layers, this objective results in significantly better representation than frozen, finetuned, and self-supervised alternatives on a wide range of benchmarks.
Abstract（参考訳）: 視覚的知覚に基づくRLにおける目標タスクに対して、ソースタスクで事前訓練された表現を転送する方法を検討する。我々は、事前訓練された表現を凍結または微調整する2つの一般的なアプローチを分析する。一般的なタスクの集合に関する実証的研究は、事前訓練された表現のいくつかの特性を明らかにする。まず、事前訓練された表現が目標タスクの解決に必要な情報を完璧に捉えた場合でも、微調整が必要となる。第二に、微調整された表現は学習性を改善し、ノイズに対してより堅牢である。第3に、事前トレーニングされたボトムレイヤはタスクに依存しず、新しいタスクに簡単に転送できる。これらの知見に基づいて,政策非依存(ユークリッドノルム,コサイン類似性など)の伝統的な表現類似性尺度とは対照的に,彼らが誘導する政策に従って表現をクラスター化する自己教師付き目標を提案する。底層を凍結させることで、この目的は幅広いベンチマークで凍結、微調整、自己監督の代替よりもはるかに優れた表現をもたらす。

関連論文リスト

Enhancing Training Data Attribution with Representational Optimization [57.61977909113113]
トレーニングデータ属性法は、トレーニングデータがモデルの予測にどのように影響するかを測定することを目的としている。本稿では,タスク固有表現とモデル整合表現をTDAで明示的に学習することで,このギャップを埋める表現ベースアプローチであるAirRepを提案する。 AirRepは、属性品質に合わせて調整されたトレーニング可能なエンコーダと、グループワイドの影響を正確に見積もるアテンションベースのプール機構の2つの重要なイノベーションを紹介している。
論文参考訳（メタデータ） (2025-05-24T05:17:53Z)
Zero-Shot Whole-Body Humanoid Control via Behavioral Foundation Models [71.34520793462069]
教師なし強化学習(RL)は、複雑な環境下で幅広い下流タスクを解くことができる事前学習エージェントを目標としている。本稿では,ラベルのない行動データセットからトラジェクトリを模倣するための,教師なしRLの正規化アルゴリズムを提案する。我々は,この手法の有効性を,挑戦的なヒューマノイド制御問題において実証する。
論文参考訳（メタデータ） (2025-04-15T10:41:11Z)
ACTRESS: Active Retraining for Semi-supervised Visual Grounding [52.08834188447851]
前回の研究であるRefTeacherは、疑似自信と注意に基づく監督を提供するために教師学生の枠組みを採用することで、この課題に取り組むための最初の試みである。このアプローチは、Transformerベースのパイプラインに従う現在の最先端のビジュアルグラウンドモデルと互換性がない。本稿では, ACTRESS を略したセミスーパービジョン視覚グラウンドのためのアクティブ・リトレーニング手法を提案する。
論文参考訳（メタデータ） (2024-07-03T16:33:31Z)
Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文参考訳（メタデータ） (2024-05-06T02:02:57Z)
Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文参考訳（メタデータ） (2024-02-23T19:09:10Z)
Probabilistic Self-supervised Learning via Scoring Rules Minimization [19.347097627898876]
本稿では,Scoring Rule Minimization (ProSMIN) を用いた確率論的自己教師型学習を提案する。提案手法は,大規模データセットを用いた多種多様な実験において,自己教師付きベースラインを超える精度とキャリブレーションを実現する。
論文参考訳（メタデータ） (2023-09-05T08:48:25Z)
Patch-Prompt Aligned Bayesian Prompt Tuning for Vision-Language Models [48.77653835765705]
そこでは,まず下位分布から潜在ベクトルをサンプリングし,次に軽量な生成モデルを用いてラベル固有のプロンプトを階層的に生成する。提案手法の有効性は,少数ショット画像認識,ベース・ツー・ニュージェネリゼーション,データセット転送学習,ドメインシフトの4つのタスクで評価する。
論文参考訳（メタデータ） (2023-03-16T06:09:15Z)
Self-Supervised Learning via Maximum Entropy Coding [57.56570417545023]
本稿では,表現の構造を明示的に最適化する原理的目的として,最大エントロピー符号化(MEC)を提案する。 MECは、特定のプリテキストタスクに基づいて、以前のメソッドよりもより一般化可能な表現を学ぶ。 ImageNetリニアプローブだけでなく、半教師付き分類、オブジェクト検出、インスタンスセグメンテーション、オブジェクトトラッキングなど、さまざまなダウンストリームタスクに対して一貫して最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-10-20T17:58:30Z)
Explaining, Evaluating and Enhancing Neural Networks' Learned Representations [2.1485350418225244]
より効率的で効率的な表現への障害ではなく、いかに説明可能性が助けになるかを示す。我々は,2つの新しいスコアを定義して,潜伏埋め込みの難易度と難易度を評価する。表現学習課題の訓練において,提案したスコアを制約として採用することで,モデルの下流性能が向上することを示す。
論文参考訳（メタデータ） (2022-02-18T19:00:01Z)
Learning to Relate Depth and Semantics for Unsupervised Domain Adaptation [87.1188556802942]
教師なしドメイン適応(UDA)設定において,視覚的タスク関係を符号化してモデル性能を向上させる手法を提案する。本稿では,意味的および深さ的予測のタスク依存性を符号化する新しいクロスタスク関係層(ctrl)を提案する。さらに、セマンティック擬似ラベルを利用してターゲットドメインを監督する反復自己学習(ISL)トレーニングスキームを提案する。
論文参考訳（メタデータ） (2021-05-17T13:42:09Z)
Conditional Meta-Learning of Linear Representations [57.90025697492041]
表現学習のための標準メタラーニングは、複数のタスク間で共有される共通の表現を見つけることを目的とする。本研究では,タスクの側情報を手作業に適した表現にマッピングし,条件付け関数を推定することで,この問題を克服する。この利点を実用的に活用できるメタアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-30T12:02:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。