論文の概要: Combining Behaviors with the Successor Features Keyboard
- arxiv url: http://arxiv.org/abs/2310.15940v1
- Date: Tue, 24 Oct 2023 15:35:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 17:58:39.334043
- Title: Combining Behaviors with the Successor Features Keyboard
- Title(参考訳): 動作と後継機能キーボードとの結合
- Authors: Wilka Carvalho, Andre Saraiva, Angelos Filos, Andrew Kyle Lampinen,
Loic Matthey, Richard L. Lewis, Honglak Lee, Satinder Singh, Danilo J.
Rezende, Daniel Zoran
- Abstract要約: SFK(Successor Features Keyboard)は、検出された状態特徴とタスクエンコーディングによる転送を可能にする。
難易度の高い3次元環境において, SFによる移動を初めて実演する。
- 参考スコア(独自算出の注目度): 55.983751286962985
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Option Keyboard (OK) was recently proposed as a method for transferring
behavioral knowledge across tasks. OK transfers knowledge by adaptively
combining subsets of known behaviors using Successor Features (SFs) and
Generalized Policy Improvement (GPI). However, it relies on hand-designed
state-features and task encodings which are cumbersome to design for every new
environment. In this work, we propose the "Successor Features Keyboard" (SFK),
which enables transfer with discovered state-features and task encodings. To
enable discovery, we propose the "Categorical Successor Feature Approximator"
(CSFA), a novel learning algorithm for estimating SFs while jointly discovering
state-features and task encodings. With SFK and CSFA, we achieve the first
demonstration of transfer with SFs in a challenging 3D environment where all
the necessary representations are discovered. We first compare CSFA against
other methods for approximating SFs and show that only CSFA discovers
representations compatible with SF&GPI at this scale. We then compare SFK
against transfer learning baselines and show that it transfers most quickly to
long-horizon tasks.
- Abstract(参考訳): Option Keyboard (OK) はタスク間での行動知識の伝達方法として提案されている。
OKは、継承的特徴(SF)と一般化政策改善(GPI)を用いて、既知の行動の部分集合を適応的に組み合わせて知識を伝達する。
しかし、ハンドデザインされた状態特徴とタスクエンコーディングに依存しており、新しい環境ごとに設計するのは面倒です。
本稿では,検出された状態特徴とタスクエンコーディングによる転送を可能にする"successor features keyboard"(sfk)を提案する。
そこで我々は,SFを推定する新しい学習アルゴリズムであるCSFA(Categorical Successor Feature Approximator)を提案する。
SFK と CSFA では,必要な表現がすべて発見される困難な3次元環境において,SF との移動を初めて実演する。
まず, CSFA と他の SF 近似法を比較し, このスケールで SF&GPI と互換性のある表現を CSFA のみが発見できることを示す。
そして、sfkとトランスファー学習のベースラインを比較し、最も高速に長いホリゾンタスクに転送できることを示します。
関連論文リスト
- Semantic Residual Prompts for Continual Learning [21.986800282078498]
提案手法は,最先端CLアプローチとゼロショットCLIPテストの両方で有意に優れていた。
我々の発見は、バックボーンモデルの事前学習知識に相当な領域ギャップを持つデータセットにも当てはまる。
論文 参考訳(メタデータ) (2024-03-11T16:23:38Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Composing Task Knowledge with Modular Successor Feature Approximators [60.431769158952626]
本稿では,新しいニューラルネットワークアーキテクチャ "Modular Successor Feature Approximator" (MSFA) を提案する。
MSFAは、SFやモジュールアーキテクチャを学ぶためのベースラインアーキテクチャと比較して、より一般化することができる。
論文 参考訳(メタデータ) (2023-01-28T23:04:07Z) - Task Relabelling for Multi-task Transfer using Successor Features [0.0]
継承機能(SF)は、特定の報酬関数に縛られないポリシーを学習可能にするメカニズムを提案する。
本研究では,資源収集,トラップ,工芸を特徴とするカスタム環境において,SFを報奨なく事前トレーニングする方法について検討する。
論文 参考訳(メタデータ) (2022-05-20T13:29:29Z) - High-level Features for Resource Economy and Fast Learning in Skill
Transfer [0.8602553195689513]
ディープネットワークは、ますます複雑な抽象化を形成する能力のために有効であることが証明されている。
以前の作業では、デザイナバイアスを生み出す抽象化の形成を強制するか、多数のニューラルユニットを使用していた。
本稿では,脳神経応答のダイナミクスを利用して,スキル伝達に使用するコンパクトな表現法を提案する。
論文 参考訳(メタデータ) (2021-06-18T21:05:21Z) - PIN: A Novel Parallel Interactive Network for Spoken Language
Understanding [68.53121591998483]
既存の RNN ベースのアプローチでは、ID と SF のタスクは、それらの間の相関情報を利用するために、しばしば共同でモデル化される。
SNIPSとATISという2つのベンチマークデータセットによる実験は、我々のアプローチの有効性を実証している。
さらに,事前学習した言語モデルBERTが生成した発話の特徴埋め込みを用いて,提案手法はすべての比較手法の中で最先端の手法を実現する。
論文 参考訳(メタデータ) (2020-09-28T15:59:31Z) - CATCH: Context-based Meta Reinforcement Learning for Transferrable
Architecture Search [102.67142711824748]
CATCHは、転送可能なarChitecture searcHのための、Context-bAsed meTa強化学習アルゴリズムである。
メタラーニングとRLの組み合わせにより、CATCHは検索空間に依存しないまま、新しいタスクに効率的に適応できる。
また、ImageNet、COCO、Cityscapesの競合ネットワークとしてクロスドメインアーキテクチャサーチを扱うこともできる。
論文 参考訳(メタデータ) (2020-07-18T09:35:53Z) - UR2KiD: Unifying Retrieval, Keypoint Detection, and Keypoint Description
without Local Correspondence Supervision [16.68130648568593]
キーポイント検出、記述、画像検索という3つの関連するタスクは、単一の統合フレームワークを使用して共同で取り組むことができる。
標準的なResNetアーキテクチャのシーケンシャルレイヤからの多様な情報を活用することで、ローカル情報をエンコードするキーポイントと記述子を抽出できる。
画像検索のためのグローバル情報は、上記のローカル応答のプールに基づいて、エンドツーエンドのパイプラインにエンコードされる。
論文 参考訳(メタデータ) (2020-01-20T21:01:38Z) - Universal Successor Features for Transfer Reinforcement Learning [77.27304854836645]
環境の基盤となるダイナミクスを捉えるために,ユニバーサル継承機能 (USF) を提案する。
時間差分法を用いて状態値の学習を行う任意のRLアルゴリズムとUSFが互換性があることを示す。
論文 参考訳(メタデータ) (2020-01-05T03:41:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。