論文の概要: Sliding Puzzles Gym: A Scalable Benchmark for State Representation in Visual Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2410.14038v1
- Date: Thu, 17 Oct 2024 21:23:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:24:54.408728
- Title: Sliding Puzzles Gym: A Scalable Benchmark for State Representation in Visual Reinforcement Learning
- Title(参考訳): Sliding Puzzles Gym: ビジュアル強化学習における状態表現のためのスケーラブルなベンチマーク
- Authors: Bryan L. M. de Oliveira, Murilo L. da Luz, Bruno Brandão, Luana G. B. Martins, Telma W. de L. Soares, Luckeciano C. Melo,
- Abstract要約: Sliding Puzzles Gym (SPGym) は従来の15タイルパズルをグリッドサイズと観測空間で拡張したベンチマークである。
SPGymは、潜在環境の動的性とアルゴリズム的問題を固定しつつ、表現学習課題のスケーリングを可能にする。
モデルフリーとモデルベース両方のRLアルゴリズムを用いた実験では、表現課題がスケールするにつれて、SPGymはその能力に基づいてエージェントを効果的に区別できることが示されている。
- 参考スコア(独自算出の注目度): 3.8309622155866583
- License:
- Abstract: Learning effective visual representations is crucial in open-world environments where agents encounter diverse and unstructured observations. This ability enables agents to extract meaningful information from raw sensory inputs, like pixels, which is essential for generalization across different tasks. However, evaluating representation learning separately from policy learning remains a challenge in most reinforcement learning (RL) benchmarks. To address this, we introduce the Sliding Puzzles Gym (SPGym), a benchmark that extends the classic 15-tile puzzle with variable grid sizes and observation spaces, including large real-world image datasets. SPGym allows scaling the representation learning challenge while keeping the latent environment dynamics and algorithmic problem fixed, providing a targeted assessment of agents' ability to form compositional and generalizable state representations. Experiments with both model-free and model-based RL algorithms, with and without explicit representation learning components, show that as the representation challenge scales, SPGym effectively distinguishes agents based on their capabilities. Moreover, SPGym reaches difficulty levels where no tested algorithm consistently excels, highlighting key challenges and opportunities for advancing representation learning for decision-making research.
- Abstract(参考訳): エージェントが多様かつ非構造的な観察に遭遇するオープンワールド環境では、効果的な視覚表現の学習が不可欠である。
この能力により、エージェントは、さまざまなタスクをまたいだ一般化に不可欠であるピクセルのような生の知覚入力から意味のある情報を抽出することができる。
しかし、政策学習とは別個に表現学習を評価することは、ほとんどの強化学習(RL)ベンチマークにおいて課題である。
この問題に対処するために,従来の15タイルパズルを拡張したベンチマークであるSliding Puzzles Gym(SPGym)を紹介した。
SPGymは、潜伏環境のダイナミクスとアルゴリズムの問題の修正を維持しながら、表現学習課題のスケーリングを可能にし、構成的および一般化可能な状態表現を形成するエージェントの能力のターゲット評価を提供する。
モデルフリーとモデルベース両方のRLアルゴリズムを用いた実験では、表現課題がスケールするにつれて、SPGymはその能力に基づいてエージェントを効果的に区別できることが示されている。
さらに、SPGymは、テストアルゴリズムが一貫して排他的でない難易度に達し、意思決定研究のための表現学習を進めるための重要な課題と機会を強調している。
関連論文リスト
- Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Improving Reinforcement Learning Efficiency with Auxiliary Tasks in
Non-Visual Environments: A Comparison [0.0]
本研究は,低次元非視覚的観察のための唯一の疎結合表現学習法である,我々の知識を最大限に活用して,一般的な補助課題と比較する。
その結果, 十分複雑な環境下では, 補助的タスクによる表現学習は, 性能向上にのみ寄与することがわかった。
論文 参考訳(メタデータ) (2023-10-06T13:22:26Z) - VIBR: Learning View-Invariant Value Functions for Robust Visual Control [3.2307366446033945]
VIBR (View-Invariant Bellman Residuals) は、マルチビュートレーニングと不変予測を組み合わせて、RLベースのビジュモータ制御における分配ギャップを削減する手法である。
視覚摂動の高い複雑なビジュオモータ制御環境において,VIBRは既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-14T14:37:34Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - Learning Common Rationale to Improve Self-Supervised Representation for
Fine-Grained Visual Recognition Problems [61.11799513362704]
我々は、インスタンスやクラスでよく見られる差別的手がかりを識別するための、追加のスクリーニングメカニズムの学習を提案する。
SSL目標から誘導されるGradCAMを単純に利用することで、共通な有理性検出器が学習可能であることを示す。
論文 参考訳(メタデータ) (2023-03-03T02:07:40Z) - Symbolic Visual Reinforcement Learning: A Scalable Framework with
Object-Level Abstraction and Differentiable Expression Search [63.3745291252038]
DiffSESは、離散的なシンボルポリシーを発見する新しいシンボリック学習手法である。
生のピクセルレベルの入力の代わりにオブジェクトレベルの抽象化を使用することで、DiffSESはシンボリック表現の単純さとスケーラビリティの利点を活用することができる。
我々の実験は、DiffSESが最先端のシンボルRL法よりもシンプルでスケーラブルなシンボリックポリシーを生成することができることを示した。
論文 参考訳(メタデータ) (2022-12-30T17:50:54Z) - Visual Perturbation-aware Collaborative Learning for Overcoming the
Language Prior Problem [60.0878532426877]
本稿では,視覚的摂動校正の観点から,新しい協調学習手法を提案する。
具体的には、異なる摂動範囲で2種類のキュレートされた画像を構築するための視覚コントローラを考案する。
2つの診断VQA-CPベンチマークデータセットの実験結果は、その効果を明らかに示している。
論文 参考訳(メタデータ) (2022-07-24T23:50:52Z) - Task-Induced Representation Learning [14.095897879222672]
視覚的に複雑な環境における意思決定における表現学習手法の有効性を評価する。
表現学習は、視覚的に複雑なシーンであっても、目に見えないタスクのサンプル効率を向上する。
論文 参考訳(メタデータ) (2022-04-25T17:57:10Z) - X-Learner: Learning Cross Sources and Tasks for Universal Visual
Representation [71.51719469058666]
本稿では,X-Learnerという表現学習フレームワークを提案する。
X-Learnerは、様々なソースによって管理される複数の視覚タスクの普遍的な特徴を学習する。
X-Learnerは、追加のアノテーションやモダリティ、計算コストを使わずに、様々なタスクで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-16T17:23:26Z) - The Distracting Control Suite -- A Challenging Benchmark for
Reinforcement Learning from Pixels [10.727930028878516]
DMコントロールを3種類の視覚的気晴らしで拡張し、ビジョンベースの制御のための新たな挑戦的なベンチマークを作成します。
本実験では, 視覚に基づく制御における現在のRL法が, 気晴らし下では不十分であることを示す。
また、複数の気晴らしタイプの組み合わせは、単に個々の効果の組み合わせよりも困難であることがわかります。
論文 参考訳(メタデータ) (2021-01-07T19:03:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。