論文の概要: Decoupling Exploration and Exploitation for Unsupervised Pre-training with Successor Features
- arxiv url: http://arxiv.org/abs/2405.02569v1
- Date: Sat, 4 May 2024 05:03:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 19:30:33.319288
- Title: Decoupling Exploration and Exploitation for Unsupervised Pre-training with Successor Features
- Title(参考訳): 後継機能付き教師なし事前訓練のための探索と爆発の分離
- Authors: JaeYoon Kim, Junyu Xuan, Christy Liang, Farookh Hussain,
- Abstract要約: 後継機能付き教師なし事前学習モデル(SF)を提案する。
提案手法は,SF上に構築されたエージェントのエクスプロイトと探索の分解を追求する。
提案したモデルは非モノリシックな教師なし事前学習(NMPS)と呼ばれる。
- 参考スコア(独自算出の注目度): 2.823645435281551
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised pre-training has been on the lookout for the virtue of a value function representation referred to as successor features (SFs), which decouples the dynamics of the environment from the rewards. It has a significant impact on the process of task-specific fine-tuning due to the decomposition. However, existing approaches struggle with local optima due to the unified intrinsic reward of exploration and exploitation without considering the linear regression problem and the discriminator supporting a small skill sapce. We propose a novel unsupervised pre-training model with SFs based on a non-monolithic exploration methodology. Our approach pursues the decomposition of exploitation and exploration of an agent built on SFs, which requires separate agents for the respective purpose. The idea will leverage not only the inherent characteristics of SFs such as a quick adaptation to new tasks but also the exploratory and task-agnostic capabilities. Our suggested model is termed Non-Monolithic unsupervised Pre-training with Successor features (NMPS), which improves the performance of the original monolithic exploration method of pre-training with SFs. NMPS outperforms Active Pre-training with Successor Features (APS) in a comparative experiment.
- Abstract(参考訳): 教師なし事前学習は、後継機能(SF)と呼ばれる値関数表現の利点に注目され、それによって環境のダイナミクスを報酬から切り離す。
分解によるタスク固有の微調整のプロセスに大きな影響を与える。
しかし, 従来の手法では, 線形回帰問題を考慮せずに, 探索と搾取の統一された本質的な報奨と, 小規模なスキルサッスをサポートする識別器により, 局所最適化に苦慮している。
非モノリシックな探索手法に基づくSFを用いた教師なし事前学習モデルを提案する。
提案手法は,SF上に構築されたエージェントの活用と探索の分解を追求し,それぞれの目的のために個別のエージェントを必要とする。
このアイデアは、新しいタスクへの迅速な適応など、SFの本質的な特性だけでなく、探索的およびタスクに依存しない能力も活用する。
提案したモデルは,非モノリシック非教師付き後継機能付き事前学習(NMPS)と呼ばれ,SFを用いた事前学習における元のモノリシック探索法の性能を向上させる。
NMPSは、後継機能付きアクティブプレトレーニング(APS)を比較実験で上回っている。
関連論文リスト
- Task Consistent Prototype Learning for Incremental Few-shot Semantic Segmentation [20.49085411104439]
Incrmental Few-Shot Semantic (iFSS)は、新しいクラスにおけるセグメンテーション能力を継続的に拡張するモデルを必要とするタスクに取り組む。
本研究では,メタラーニングに基づくプロトタイプ手法を導入し,モデルに事前知識を保ちながら,迅速な適応方法の学習を促す。
PASCALとCOCOベンチマークに基づいて構築されたiFSSデータセットの実験は、提案手法の高度な性能を示している。
論文 参考訳(メタデータ) (2024-10-16T23:42:27Z) - ACTRESS: Active Retraining for Semi-supervised Visual Grounding [52.08834188447851]
前回の研究であるRefTeacherは、疑似自信と注意に基づく監督を提供するために教師学生の枠組みを採用することで、この課題に取り組むための最初の試みである。
このアプローチは、Transformerベースのパイプラインに従う現在の最先端のビジュアルグラウンドモデルと互換性がない。
本稿では, ACTRESS を略したセミスーパービジョン視覚グラウンドのためのアクティブ・リトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-03T16:33:31Z) - Exploratory Preference Optimization: Harnessing Implicit Q*-Approximation for Sample-Efficient RLHF [82.7679132059169]
人間のフィードバックから強化学習が言語モデルのアライメントのための中心的なツールとして登場した。
我々は、RLHFにおけるオンライン探索のための新しいアルゴリズム、Exploratory Preference Optimization (XPO)を提案する。
XPOは証明可能な最強の保証と有望な経験的パフォーマンスを享受しています。
論文 参考訳(メタデータ) (2024-05-31T17:39:06Z) - Learning Off-policy with Model-based Intrinsic Motivation For Active Online Exploration [15.463313629574111]
本稿では,連続制御タスクにおけるサンプル効率の高い探索手法について検討する。
本稿では,予測モデルと非政治学習要素を組み込んだRLアルゴリズムを提案する。
パラメーターのオーバーヘッドを発生させずに本質的な報酬を導き出す。
論文 参考訳(メタデータ) (2024-03-31T11:39:11Z) - Preserving Silent Features for Domain Generalization [6.568921669414849]
自己教師付きコントラスト学習事前学習モデルは、DG設定で同じデータセット上で事前訓練された教師付きモデルよりも優れた一般化性能を示す。
本稿では,STEP(Silent Feature Preservation)と呼ばれる簡易かつ効果的な手法を提案し,自己教師付きコントラスト学習事前学習モデルの一般化性能を向上させる。
論文 参考訳(メタデータ) (2024-01-06T09:11:41Z) - Evaluation of Active Feature Acquisition Methods for Time-varying Feature Settings [6.082810456767599]
機械学習の手法は、入力機能が無償で利用できると仮定することが多い。
機能性の獲得が有害な分野である医療のような領域では、機能の獲得と予測的肯定性とのバランスをとる必要がある。
能動的特徴獲得性能評価(AFAPE)の問題点について述べる。
論文 参考訳(メタデータ) (2023-12-03T23:08:29Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Self-supervised network distillation: an effective approach to exploration in sparse reward environments [0.0]
強化学習は、事前に設計された報酬関数に従って、エージェントが環境の中で振る舞うように訓練することができる。
そのような問題の解決策は、エージェントに情報的な探索を提供する本質的な動機を与えることであるかもしれない。
本稿では, 蒸留誤差に基づく本質的な動機づけアルゴリズムである自己教師ネットワーク蒸留(SND)を新規性指標として提示する。
論文 参考訳(メタデータ) (2023-02-22T18:58:09Z) - Understanding and Mitigating Overfitting in Prompt Tuning for
Vision-Language Models [108.13378788663196]
本稿では, トレーニング過程全体において, 低ランク部分空間にバックプロパゲーションの勾配を投影するSubspace Prompt Tuning(SubPT)を提案する。
我々はCoOpにノベル・ラーナー・フィーチャー(NFL)を装備し、学習したプロンプトをトレーニングセット以外の新しいカテゴリに一般化する能力を高める。
論文 参考訳(メタデータ) (2022-11-04T02:06:22Z) - SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark
for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。
データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。
また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-03-14T04:26:40Z) - APS: Active Pretraining with Successor Features [96.24533716878055]
非エントロピーと後継指標であるHansenFastを再解釈して組み合わせることで、難解な相互情報を効率的に最適化できることを示す。
提案手法は,非エントロピーを用いて環境を探索し,探索したデータを効率的に活用して動作を学習する。
論文 参考訳(メタデータ) (2021-08-31T16:30:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。