論文の概要: Unlocking the Power of Representations in Long-term Novelty-based
Exploration
- arxiv url: http://arxiv.org/abs/2305.01521v1
- Date: Tue, 2 May 2023 15:29:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-03 13:57:42.998435
- Title: Unlocking the Power of Representations in Long-term Novelty-based
Exploration
- Title(参考訳): 長期新奇探索における表現力の解き放つ
- Authors: Alaa Saade, Steven Kapturowski, Daniele Calandriello, Charles
Blundell, Pablo Sprechmann, Leopoldo Sarra, Oliver Groth, Michal Valko, Bilal
Piot
- Abstract要約: 本稿では、新規性に基づく探索のための非パラメトリック手法である、クラスタリングに基づくオンライン密度推定(RECODE)によるロバスト探索を紹介する。
古典的なクラスタリングをDeep RLの定常的な設定に適応させることで、RECODEは何千回ものエピソードの訪問数を効率的に追跡することができる。
RECODEはまた、アタリゲームにおける新しい最先端技術も設定しており、"Pitfall!"でエンドスクリーンに到達した最初のエージェントである。
- 参考スコア(独自算出の注目度): 44.740620368477565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Robust Exploration via Clustering-based Online Density
Estimation (RECODE), a non-parametric method for novelty-based exploration that
estimates visitation counts for clusters of states based on their similarity in
a chosen embedding space. By adapting classical clustering to the nonstationary
setting of Deep RL, RECODE can efficiently track state visitation counts over
thousands of episodes. We further propose a novel generalization of the inverse
dynamics loss, which leverages masked transformer architectures for multi-step
prediction; which in conjunction with RECODE achieves a new state-of-the-art in
a suite of challenging 3D-exploration tasks in DM-Hard-8. RECODE also sets new
state-of-the-art in hard exploration Atari games, and is the first agent to
reach the end screen in "Pitfall!".
- Abstract(参考訳): 本稿では,クラスタベースオンライン密度推定(recode)によるロバスト探索について紹介する。これは非パラメトリック手法で,選択された埋め込み空間における類似度に基づいて,状態クラスタの訪問回数を推定する。
古典的なクラスタリングをDeep RLの定常的な設定に適応させることで、RECODEは何千回ものエピソードの訪問数を効率的に追跡することができる。
さらに, MD-Hard-8における3次元探索課題の組において, RECODEと組み合わせて新しい最先端技術を実現する, マスク付きトランスフォーマーアーキテクチャを多段階予測に活用した逆ダイナミクス損失の新たな一般化を提案する。
RECODEはまた、アタリゲームにおける新しい最先端のゲームも設定しており、"Pitfall!"でエンドスクリーンに到達した最初のエージェントである。
関連論文リスト
- OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - OverlapMamba: Novel Shift State Space Model for LiDAR-based Place Recognition [10.39935021754015]
位置認識のための新しいネットワークであるOverlapMambaを開発した。
本手法は,以前に訪れた場所を異なる方向から横断する場合でも,ループの閉鎖を効果的に検出する。
生のレンジビューの入力に基づいて、典型的なLiDARと複数ビューの組み合わせ法を時間的複雑さと速度で上回っている。
論文 参考訳(メタデータ) (2024-05-13T17:46:35Z) - Find n' Propagate: Open-Vocabulary 3D Object Detection in Urban Environments [67.83787474506073]
我々は,現在のLiDARに基づく3Dオブジェクト検出システムの限界に対処する。
本稿では,3次元OVタスクに対する汎用textscFind n' Propagate アプローチを提案する。
我々は、新しいオブジェクトクラスに対する平均精度(AP)を最大3.97倍に向上させる。
論文 参考訳(メタデータ) (2024-03-20T12:51:30Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Implicit neural representation for change detection [15.741202788959075]
点雲の変化を検出する最も一般的なアプローチは、教師付き手法に基づいている。
Inlicit Neural Representation (INR) for continuous shape reconstruction と Gaussian Mixture Model for categorising change の2つのコンポーネントからなる教師なしアプローチを提案する。
本手法を都市スプロールのためのシミュレーションLiDAR点雲からなるベンチマークデータセットに適用する。
論文 参考訳(メタデータ) (2023-07-28T09:26:00Z) - OcTr: Octree-based Transformer for 3D Object Detection [30.335788698814444]
LiDARベースの3Dオブジェクト検出の重要な課題は、大規模な3Dシーンから十分な特徴をキャプチャすることだ。
我々はこの問題に対処するためにOcTrというOcreeベースのトランスフォーマーを提案する。
本研究では,前景の知覚性を高めるために,セマンティック・アウェアな位置埋め込みとアテンションマスクを組み合わせたハイブリッドな位置埋め込みを提案する。
論文 参考訳(メタデータ) (2023-03-22T15:01:20Z) - Exploration via Elliptical Episodic Bonuses [22.404871878551354]
連続状態空間にカウントベースのエピソードボーナスを拡張する新しい方法であるE3B(Episodic Bonuses)による探索を導入する。
提案手法は,タスク固有の帰納バイアスを必要とせずに,MiniHackスイートから16の課題にまたがる新しい最先端のタスクを設定する。
E3Bはまた、スパース報酬、ピクセルベースのVizDoom環境に関する既存の手法と一致し、Habitatでの報酬のない探索において、既存の手法よりも優れている。
論文 参考訳(メタデータ) (2022-10-11T22:10:23Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - MADE: Exploration via Maximizing Deviation from Explored Regions [48.49228309729319]
オンライン強化学習(RL)では、高次元環境における効率的な探索は依然として困難であり、報酬は少ない。
調査地域からの次の政策の逸脱を最大化することによる新たな探索手法を提案する。
提案手法は,最先端手法よりもサンプル効率を著しく向上させる。
論文 参考訳(メタデータ) (2021-06-18T17:57:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。