論文の概要: When should agents explore?
- arxiv url: http://arxiv.org/abs/2108.11811v1
- Date: Thu, 26 Aug 2021 14:27:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-27 18:46:51.574662
- Title: When should agents explore?
- Title(参考訳): エージェントはいつ探索すべきか?
- Authors: Miruna P\^islar, David Szepesvari, Georg Ostrovski, Diana Borsa, Tom
Schaul
- Abstract要約: 本稿では,強化学習のためのモードスイッチング,非モノリシック探索について検討する。
スイッチング機構を適応的かつ堅牢にするための,実用的なアルゴリズムコンポーネントを提案する。
本稿では,2モード探索と切り換えによるアタリの予測的かつ詳細な解析について報告する。
- 参考スコア(独自算出の注目度): 10.043855330523888
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Exploration remains a central challenge for reinforcement learning (RL).
Virtually all existing methods share the feature of a monolithic behaviour
policy that changes only gradually (at best). In contrast, the exploratory
behaviours of animals and humans exhibit a rich diversity, namely including
forms of switching between modes. This paper presents an initial study of
mode-switching, non-monolithic exploration for RL. We investigate different
modes to switch between, at what timescales it makes sense to switch, and what
signals make for good switching triggers. We also propose practical algorithmic
components that make the switching mechanism adaptive and robust, which enables
flexibility without an accompanying hyper-parameter-tuning burden. Finally, we
report a promising and detailed analysis on Atari, using two-mode exploration
and switching at sub-episodic time-scales.
- Abstract(参考訳): 調査は強化学習(rl)の中心的な課題である。
事実上、既存のすべてのメソッドは、徐々にしか変化しないモノリシックな振る舞いポリシーの特徴を共有します。
対照的に、動物や人間の探索行動は、モードを切り替える形態を含む、豊富な多様性を示す。
本稿では,rlのモードスイッチング,非モノリシック探索の初期研究について述べる。
我々は、切り替える異なるモード、切り換えが合理的な時間スケール、良い切り換えトリガーとなる信号について検討する。
また,スイッチング機構を適応的かつ堅牢にし,過パラメータ調整に伴う負担を伴わずに柔軟性を実現するアルゴリズムコンポーネントを提案する。
最後に,2モード探索と切り換えによるアタリの時間スケールの有望かつ詳細な解析を報告する。
関連論文リスト
- ODRL: A Benchmark for Off-Dynamics Reinforcement Learning [59.72217833812439]
我々は、オフダイナミックスRL法を評価するための最初のベンチマークであるODRLを紹介する。
ODRLには、4つの実験的な設定が含まれており、ソースドメインとターゲットドメインはオンラインまたはオフラインにすることができる。
我々は、様々な力学シフトにまたがる普遍的な優位性を持つ手法が存在しないことを示す広範なベンチマーク実験を行った。
論文 参考訳(メタデータ) (2024-10-28T05:29:38Z) - ReconBoost: Boosting Can Achieve Modality Reconcilement [89.4377895465204]
我々は、調和を達成するために、モダリティ代替学習パラダイムについて研究する。
固定モードを毎回更新するReconBoostと呼ばれる新しい手法を提案する。
提案手法はFriedman's Gradient-Boosting (GB) アルゴリズムに似ており,更新された学習者が他者による誤りを訂正できることを示す。
論文 参考訳(メタデータ) (2024-05-15T13:22:39Z) - Curiosity & Entropy Driven Unsupervised RL in Multiple Environments [0.0]
オリジナル作品に5つの新しい修正を加えて実験する。
高次元環境では、好奇心による探索は、エージェントに多様な経験を求め、未知のものを探索するように促すことによって学習を促進する。
しかし、探索可能性に制約があり、エージェントに真に知られていないような、低次元でシンプルな環境では、その利点は限られている。
論文 参考訳(メタデータ) (2024-01-08T19:25:40Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - An Autonomous Non-monolithic Agent with Multi-mode Exploration based on Options Framework [2.823645435281551]
非モノリシックな探査研究は、人間と動物のモードスイッチング探索行動を調べるために現れた。
私たちの研究の最終的な目的は、エージェントがいつ自律的に探索するか、活用するかを判断できるようにすることです。
論文 参考訳(メタデータ) (2023-05-02T11:08:05Z) - Changer: Feature Interaction is What You Need for Change Detection [6.385385687682811]
変化検出は、長期の地球観測ミッションにとって重要なツールである。
本稿では,特徴抽出器に代替的なインタラクション層を含む,新しい汎用的な変更検出アーキテクチャであるMetaChangerを提案する。
異なるスケール変化検出データセット上で,Changerシリーズモデルが競合性能を達成するのを観察する。
論文 参考訳(メタデータ) (2022-09-17T09:13:02Z) - ModeRNN: Harnessing Spatiotemporal Mode Collapse in Unsupervised
Predictive Learning [75.2748374360642]
そこで本研究では,繰り返し状態間の隠れ構造表現を学習するための新しい手法であるModeRNNを提案する。
データセット全体にわたって、異なるモードがスロットの混合に対して異なるレスポンスをもたらすため、ModeRNNが構造化された表現を構築する能力が向上する。
論文 参考訳(メタデータ) (2021-10-08T03:47:54Z) - Discovery of Options via Meta-Learned Subgoals [59.2160583043938]
オプションの形での時間的抽象化は、強化学習(RL)エージェントの学習の高速化に役立つことが示されている。
マルチタスクRL環境で有用なオプションを発見するための新しいメタグラデーションアプローチを紹介します。
論文 参考訳(メタデータ) (2021-02-12T19:50:40Z) - A Framework for Automatic Behavior Generation in Multi-Function Swarms [1.290382979353427]
マルチファンクションスワムにおける自動行動生成のためのフレームワークを提案する。
フレームワークは3つの同時タスクでシナリオ上でテストされる。
MAP-elitesの挙動特性に及ぼすノイズの影響について検討した。
論文 参考訳(メタデータ) (2020-07-11T20:50:52Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z) - Continuous-Discrete Reinforcement Learning for Hybrid Control in
Robotics [21.823173895315605]
本稿では、ハイブリッド強化学習を用いて、ハイブリッド問題を「ネイティブ」形式で扱うことを提案する。
実験では,提案手法がこれらのハイブリッド強化学習問題を効率的に解くことを最初に実証した。
そして、シミュレーションとロボットハードウェアの両方において、専門家が設計した不完全なものを除去する利点が示されます。
論文 参考訳(メタデータ) (2020-01-02T14:19:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。