論文の概要: Combining Behaviors with the Successor Features Keyboard
- arxiv url: http://arxiv.org/abs/2310.15940v1
- Date: Tue, 24 Oct 2023 15:35:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 17:58:39.334043
- Title: Combining Behaviors with the Successor Features Keyboard
- Title(参考訳): 動作と後継機能キーボードとの結合
- Authors: Wilka Carvalho, Andre Saraiva, Angelos Filos, Andrew Kyle Lampinen,
Loic Matthey, Richard L. Lewis, Honglak Lee, Satinder Singh, Danilo J.
Rezende, Daniel Zoran
- Abstract要約: SFK(Successor Features Keyboard)は、検出された状態特徴とタスクエンコーディングによる転送を可能にする。
難易度の高い3次元環境において, SFによる移動を初めて実演する。
- 参考スコア(独自算出の注目度): 55.983751286962985
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Option Keyboard (OK) was recently proposed as a method for transferring
behavioral knowledge across tasks. OK transfers knowledge by adaptively
combining subsets of known behaviors using Successor Features (SFs) and
Generalized Policy Improvement (GPI). However, it relies on hand-designed
state-features and task encodings which are cumbersome to design for every new
environment. In this work, we propose the "Successor Features Keyboard" (SFK),
which enables transfer with discovered state-features and task encodings. To
enable discovery, we propose the "Categorical Successor Feature Approximator"
(CSFA), a novel learning algorithm for estimating SFs while jointly discovering
state-features and task encodings. With SFK and CSFA, we achieve the first
demonstration of transfer with SFs in a challenging 3D environment where all
the necessary representations are discovered. We first compare CSFA against
other methods for approximating SFs and show that only CSFA discovers
representations compatible with SF&GPI at this scale. We then compare SFK
against transfer learning baselines and show that it transfers most quickly to
long-horizon tasks.
- Abstract(参考訳): Option Keyboard (OK) はタスク間での行動知識の伝達方法として提案されている。
OKは、継承的特徴(SF)と一般化政策改善(GPI)を用いて、既知の行動の部分集合を適応的に組み合わせて知識を伝達する。
しかし、ハンドデザインされた状態特徴とタスクエンコーディングに依存しており、新しい環境ごとに設計するのは面倒です。
本稿では,検出された状態特徴とタスクエンコーディングによる転送を可能にする"successor features keyboard"(sfk)を提案する。
そこで我々は,SFを推定する新しい学習アルゴリズムであるCSFA(Categorical Successor Feature Approximator)を提案する。
SFK と CSFA では,必要な表現がすべて発見される困難な3次元環境において,SF との移動を初めて実演する。
まず, CSFA と他の SF 近似法を比較し, このスケールで SF&GPI と互換性のある表現を CSFA のみが発見できることを示す。
そして、sfkとトランスファー学習のベースラインを比較し、最も高速に長いホリゾンタスクに転送できることを示します。
関連論文リスト
- Trustworthy Image Semantic Communication with GenAI: Explainablity, Controllability, and Efficiency [59.15544887307901]
画像意味コミュニケーション(ISC)は,高効率な映像コンテンツ伝送を実現する可能性に注目されている。
既存のISCシステムは、解釈可能性、操作性、互換性の課題に直面している。
我々は、複数の下流推論タスクにGenerative Artificial Intelligence(GenAI)を利用する新しい信頼できるISCフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-07T14:32:36Z) - SF-DQN: Provable Knowledge Transfer using Successor Feature for Deep Reinforcement Learning [89.04776523010409]
本稿では、複数のRL問題が異なる報酬関数を持つが、基礎となる遷移力学を共有する転写強化学習(RL)問題を考察する。
この設定では、各RL問題(タスク)のQ-関数を後継特徴(SF)と報酬マッピングに分解することができる。
GPIを用いたSF-DQNの証明可能な一般化保証を用いた最初の収束解析を確立する。
論文 参考訳(メタデータ) (2024-05-24T20:30:14Z) - Facing Unknown: Open-World Encrypted Traffic Classification Based on Contrastive Pre-Training [5.318006462723139]
オープンワールドコントラスト事前学習(OWCP)フレームワークを提案する。
OWCPは、頑健な特徴表現を得るために、対照的な事前訓練を行う。
OWCPの各成分の総合的アブレーション研究と感度解析を行い,各成分の妥当性を検証した。
論文 参考訳(メタデータ) (2023-08-31T17:04:20Z) - Composing Task Knowledge with Modular Successor Feature Approximators [60.431769158952626]
本稿では,新しいニューラルネットワークアーキテクチャ "Modular Successor Feature Approximator" (MSFA) を提案する。
MSFAは、SFやモジュールアーキテクチャを学ぶためのベースラインアーキテクチャと比較して、より一般化することができる。
論文 参考訳(メタデータ) (2023-01-28T23:04:07Z) - Task Relabelling for Multi-task Transfer using Successor Features [0.0]
継承機能(SF)は、特定の報酬関数に縛られないポリシーを学習可能にするメカニズムを提案する。
本研究では,資源収集,トラップ,工芸を特徴とするカスタム環境において,SFを報奨なく事前トレーニングする方法について検討する。
論文 参考訳(メタデータ) (2022-05-20T13:29:29Z) - CATCH: Context-based Meta Reinforcement Learning for Transferrable
Architecture Search [102.67142711824748]
CATCHは、転送可能なarChitecture searcHのための、Context-bAsed meTa強化学習アルゴリズムである。
メタラーニングとRLの組み合わせにより、CATCHは検索空間に依存しないまま、新しいタスクに効率的に適応できる。
また、ImageNet、COCO、Cityscapesの競合ネットワークとしてクロスドメインアーキテクチャサーチを扱うこともできる。
論文 参考訳(メタデータ) (2020-07-18T09:35:53Z) - UR2KiD: Unifying Retrieval, Keypoint Detection, and Keypoint Description
without Local Correspondence Supervision [16.68130648568593]
キーポイント検出、記述、画像検索という3つの関連するタスクは、単一の統合フレームワークを使用して共同で取り組むことができる。
標準的なResNetアーキテクチャのシーケンシャルレイヤからの多様な情報を活用することで、ローカル情報をエンコードするキーポイントと記述子を抽出できる。
画像検索のためのグローバル情報は、上記のローカル応答のプールに基づいて、エンドツーエンドのパイプラインにエンコードされる。
論文 参考訳(メタデータ) (2020-01-20T21:01:38Z) - Universal Successor Features for Transfer Reinforcement Learning [77.27304854836645]
環境の基盤となるダイナミクスを捉えるために,ユニバーサル継承機能 (USF) を提案する。
時間差分法を用いて状態値の学習を行う任意のRLアルゴリズムとUSFが互換性があることを示す。
論文 参考訳(メタデータ) (2020-01-05T03:41:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。