論文の概要: Sliding Puzzles Gym: A Scalable Benchmark for State Representation in Visual Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2410.14038v2
- Date: Thu, 31 Oct 2024 00:06:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 16:56:54.590465
- Title: Sliding Puzzles Gym: A Scalable Benchmark for State Representation in Visual Reinforcement Learning
- Title(参考訳): Sliding Puzzles Gym: ビジュアル強化学習における状態表現のためのスケーラブルなベンチマーク
- Authors: Bryan L. M. de Oliveira, Murilo L. da Luz, Bruno Brandão, Luana G. B. Martins, Telma W. de L. Soares, Luckeciano C. Melo,
- Abstract要約: Sliding Puzzles Gym (SPGym) は従来の15タイルパズルをグリッドサイズと観測空間で拡張したベンチマークである。
SPGymは、潜在環境の動的性とアルゴリズム的問題を固定しつつ、表現学習課題のスケーリングを可能にする。
モデルフリーとモデルベース両方のRLアルゴリズムを用いた実験では,表現課題がスケールするにつれて,SPGymはエージェントの能力に基づいて効果的にエージェントを識別できることが示されている。
- 参考スコア(独自算出の注目度): 3.8309622155866583
- License:
- Abstract: Learning effective visual representations is crucial in open-world environments where agents encounter diverse and unstructured observations. This ability enables agents to extract meaningful information from raw sensory inputs, like pixels, which is essential for generalization across different tasks. However, evaluating representation learning separately from policy learning remains a challenge in most reinforcement learning (RL) benchmarks. To address this, we introduce the Sliding Puzzles Gym (SPGym), a benchmark that extends the classic 15-tile puzzle with variable grid sizes and observation spaces, including large real-world image datasets. SPGym allows scaling the representation learning challenge while keeping the latent environment dynamics and algorithmic problem fixed, providing a targeted assessment of agents' ability to form compositional and generalizable state representations. Our experiments with both model-free and model-based RL algorithms, with and without explicit representation learning components, show that as the representation challenge scales, SPGym effectively distinguishes agents based on their capabilities. Moreover, SPGym reaches difficulty levels where no tested algorithm consistently excels, highlighting key challenges and opportunities for advancing representation learning for decision-making research.
- Abstract(参考訳): エージェントが多様かつ非構造的な観察に遭遇するオープンワールド環境では、効果的な視覚表現の学習が不可欠である。
この能力により、エージェントは、さまざまなタスクをまたいだ一般化に不可欠であるピクセルのような生の知覚入力から意味のある情報を抽出することができる。
しかし、政策学習とは別個に表現学習を評価することは、ほとんどの強化学習(RL)ベンチマークにおいて課題である。
この問題に対処するために,従来の15タイルパズルを拡張したベンチマークであるSliding Puzzles Gym(SPGym)を紹介した。
SPGymは、潜伏環境のダイナミクスとアルゴリズムの問題の修正を維持しながら、表現学習課題のスケーリングを可能にし、構成的および一般化可能な状態表現を形成するエージェントの能力のターゲット評価を提供する。
モデルフリーとモデルベース両方のRLアルゴリズムを用いた実験では,表現課題がスケールするにつれて,SPGymはエージェントの能力に基づいて効果的にエージェントを識別できることが示されている。
さらに、SPGymは、テストアルゴリズムが一貫して排他的でない難易度に達し、意思決定研究のための表現学習を進めるための重要な課題と機会を強調している。
関連論文リスト
- Intrinsic Dynamics-Driven Generalizable Scene Representations for Vision-Oriented Decision-Making Applications [0.21051221444478305]
シーン表現の能力をいかに向上させるかは、ビジョン指向の意思決定アプリケーションにおいて重要な問題である。
視覚強化学習におけるシーケンスモデルを用いた固有ダイナミクス駆動表現学習法を提案する。
論文 参考訳(メタデータ) (2024-05-30T06:31:03Z) - Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。
本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。
FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文 参考訳(メタデータ) (2024-03-26T06:04:50Z) - Improving Reinforcement Learning Efficiency with Auxiliary Tasks in
Non-Visual Environments: A Comparison [0.0]
本研究は,低次元非視覚的観察のための唯一の疎結合表現学習法である,我々の知識を最大限に活用して,一般的な補助課題と比較する。
その結果, 十分複雑な環境下では, 補助的タスクによる表現学習は, 性能向上にのみ寄与することがわかった。
論文 参考訳(メタデータ) (2023-10-06T13:22:26Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - Learning Common Rationale to Improve Self-Supervised Representation for
Fine-Grained Visual Recognition Problems [61.11799513362704]
我々は、インスタンスやクラスでよく見られる差別的手がかりを識別するための、追加のスクリーニングメカニズムの学習を提案する。
SSL目標から誘導されるGradCAMを単純に利用することで、共通な有理性検出器が学習可能であることを示す。
論文 参考訳(メタデータ) (2023-03-03T02:07:40Z) - An Empirical Investigation of Representation Learning for Imitation [76.48784376425911]
視覚、強化学習、NLPにおける最近の研究は、補助的な表現学習の目的が、高価なタスク固有の大量のデータの必要性を減らすことを示している。
本稿では,表現学習アルゴリズムを構築するためのモジュラーフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-16T11:23:42Z) - Task-Induced Representation Learning [14.095897879222672]
視覚的に複雑な環境における意思決定における表現学習手法の有効性を評価する。
表現学習は、視覚的に複雑なシーンであっても、目に見えないタスクのサンプル効率を向上する。
論文 参考訳(メタデータ) (2022-04-25T17:57:10Z) - Reinforcement Learning with Prototypical Representations [114.35801511501639]
Proto-RLは、プロトタイプ表現を通じて表現学習と探索を結び付ける自己監督型フレームワークである。
これらのプロトタイプは、エージェントの探索経験の要約と同時に、観察を表す基盤としても機能する。
これにより、困難な連続制御タスクのセットで最新の下流ポリシー学習が可能になります。
論文 参考訳(メタデータ) (2021-02-22T18:56:34Z) - Model-free Representation Learning and Exploration in Low-rank MDPs [64.72023662543363]
低位mdpに対して,最初のモデルフリー表現学習アルゴリズムを提案する。
主要なアルゴリズムの貢献は新しいミニマックス表現の学習の目的です。
結果は複雑な環境にスケールする一般的な関数近似を収容できます。
論文 参考訳(メタデータ) (2021-02-14T00:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。