論文の概要: APF+: Boosting adaptive-potential function reinforcement learning methods with a W-shaped network for high-dimensional games
- arxiv url: http://arxiv.org/abs/2503.13557v1
- Date: Mon, 17 Mar 2025 01:53:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:17:24.943963
- Title: APF+: Boosting adaptive-potential function reinforcement learning methods with a W-shaped network for high-dimensional games
- Title(参考訳): APF+: 高次元ゲームのためのW字型ネットワークを用いた適応ポテンシャル関数強化学習手法の強化
- Authors: Yifei Chen, Lambert Schomaker,
- Abstract要約: 本稿では,高次元のゲームフレームを低次元の埋め込みに投影する状態符号化手法により,適応ポテンシャル関数(APF)を拡張することを提案する。
また,20試合中,APF-WNet-DDQNはDDQN (14/20ゲーム) とAPF-STDIM-DDQN (13/20ゲーム) を上回った。
- 参考スコア(独自算出の注目度): 4.1479515206233195
- License:
- Abstract: Studies in reward shaping for reinforcement learning (RL) have flourished in recent years due to its ability to speed up training. Our previous work proposed an adaptive potential function (APF) and showed that APF can accelerate the Q-learning with a Multi-layer Perceptron algorithm in the low-dimensional domain. This paper proposes to extend APF with an encoder (APF+) for RL state representation, allowing applying APF to the pixel-based Atari games using a state-encoding method that projects high-dimensional game's pixel frames to low-dimensional embeddings. We approach by designing the state-representation encoder as a W-shaped network (W-Net), by using which we are able to encode both the background as well as the moving entities in the game frames. Specifically, the embeddings derived from the pre-trained W-Net consist of two latent vectors: One represents the input state, and the other represents the deviation of the input state's representation from itself. We then incorporate W-Net into APF to train a downstream Dueling Deep Q-Network (DDQN), obtain the APF-WNet-DDQN, and demonstrate its effectiveness in Atari game-playing tasks. To evaluate the APF+W-Net module in such high-dimensional tasks, we compare with two types of baseline methods: (i) the basic DDQN; and (ii) two encoder-replaced APF-DDQN methods where we replace W-Net by (a) an unsupervised state representation method called Spatiotemporal Deep Infomax (ST-DIM) and (b) a ground truth state representation provided by the Atari Annotated RAM Interface (ARI). The experiment results show that out of 20 Atari games, APF-WNet-DDQN outperforms DDQN (14/20 games) and APF-STDIM-DDQN (13/20 games) significantly. In comparison against the APF-ARI-DDQN which employs embeddings directly of the detailed game-internal state information, the APF-WNet-DDQN achieves a comparable performance.
- Abstract(参考訳): 強化学習(RL)のための報酬形成の研究は、訓練のスピードアップによって近年盛んに行われている。
我々は,適応ポテンシャル関数(APF)を提案し,低次元領域における多層パーセプトロンアルゴリズムにより,APFがQ-ラーニングを高速化できることを示した。
本稿では,RL状態表現のためのエンコーダ(APF+)でAPFを拡張し,高次元のゲームフレームを低次元の埋め込みに投影する状態符号化手法を用いて,AtariゲームにAPFを適用することを提案する。
状態表現エンコーダをW字型ネットワーク(W-Net)として設計し,ゲームフレームの背景と移動体の両方を符号化する手法を提案する。
具体的には、事前訓練されたW-Netから派生した埋め込みは、2つの潜伏ベクトルから構成される: 1つは入力状態を表し、もう1つは入力状態の表現がそれ自身から逸脱することを表す。
次に、W-NetをAPFに組み込んで、Dueling Deep Q-Network(DDQN)を下流で訓練し、APF-WNet-DDQNを取得し、Atariゲームプレイングタスクの有効性を示す。
このような高次元タスクにおけるAPF+W-Netモジュールの評価には,2種類のベースライン法との比較を行う。
(i)基本的なDDQN,及び
(ii)W-Netを置換する2つのエンコーダ置換APF-DDQN法
(a)時空間深度情報マックス(ST-DIM)と無監督状態表現法
b) Atari Annotated RAM Interface (ARI)が提供する基底真理状態表現。
その結果,20試合中,APF-WNet-DDQNはDDQN (14/20ゲーム) とAPF-STDIM-DDQN (13/20ゲーム) を上回った。
詳細なゲーム内状態情報を直接埋め込みするAPF-ARI-DDQNと比較して、APF-WNet-DDQNは同等のパフォーマンスを達成する。
関連論文リスト
- Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Simplifying Deep Temporal Difference Learning [3.458933902627673]
安定を保ちながら、政治外のTDトレーニングを加速し、簡素化できるかどうかを検討する。
我々の重要な理論的結果は、LayerNormのような正規化技術が証明可能な収束性TDアルゴリズムが得られることを初めて示している。
よりシンプルなオンラインQ-LearningアルゴリズムであるPQNを提案する。
論文 参考訳(メタデータ) (2024-07-05T18:49:07Z) - Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - DPF: Learning Dense Prediction Fields with Weak Supervision [4.843068133224435]
我々は,高密度予測場 (DPF) と呼ばれる点座標クエリの予測を行う新しいパラダイムを提案する。
DPFは連続したサブピクセル位置に対して表現的な中間特徴を生成し、任意の解像度の出力を可能にする。
高レベル意味解析と低レベル固有画像分解の2つのタスクを用いてDPFの有効性を示す。
論文 参考訳(メタデータ) (2023-03-29T17:58:33Z) - S$^2$-FPN: Scale-ware Strip Attention Guided Feature Pyramid Network for Real-time Semantic Segmentation [6.744210626403423]
本稿では,リアルタイム道路シーンセマンティックセグメンテーションにおける精度/速度のトレードオフを実現するための新しいモデルを提案する。
具体的には、スケール対応ストリップ注意誘導特徴ピラミッドネットワーク(S$2-FPN)という軽量モデルを提案する。
我々のネットワークは,アテンションピラミッドフュージョン(APF)モジュール,スケール対応ストリップアテンションモジュール(SSAM)モジュール,グローバルフィーチャーアップサンプル(GFU)モジュールの3つの主要モジュールで構成されている。
論文 参考訳(メタデータ) (2022-06-15T05:02:49Z) - Frustratingly Easy Regularization on Representation Can Boost Deep
Reinforcement Learning [9.072416458330268]
そこで本研究では,$Q$-networkとその対象である$Q$-networkの学習表現が,理論上,良質な識別可能な表現特性を満たすことを実証する。
本稿では,内部表現の明示的正規化を通じて識別可能な表現特性を維持することを目的とした,表現の簡易正規化によるポリシー評価を提案する。
PEERはPyBulletの4つの環境での最先端のパフォーマンス、DMControlの12タスク中9、Atariの26ゲーム中19タスクを実現している。
論文 参考訳(メタデータ) (2022-05-29T02:29:32Z) - Mastering Visual Continuous Control: Improved Data-Augmented
Reinforcement Learning [114.35801511501639]
視覚連続制御のためのモデルなし強化学習アルゴリズムDrQ-v2を提案する。
DrQ-v2は、データ拡張を使用してピクセルから直接学習する、政治以外のアクター批判的なアプローチであるDrQの上に構築されている。
特にDrQ-v2は、ピクセル観察から直接、複雑なヒューマノイドの移動タスクを解くことができる。
論文 参考訳(メタデータ) (2021-07-20T17:29:13Z) - Densely Nested Top-Down Flows for Salient Object Detection [137.74130900326833]
本稿では,物体検出におけるトップダウンモデリングの役割を再考する。
密度の高いトップダウンフロー(DNTDF)ベースのフレームワークを設計する。
DNTDFのすべての段階において、高いレベルの特徴はプログレッシブ圧縮ショートカットパス(PCSP)を介して読み込まれる。
論文 参考訳(メタデータ) (2021-02-18T03:14:02Z) - Dual Pixel Exploration: Simultaneous Depth Estimation and Image
Restoration [77.1056200937214]
本研究では,ぼかしと深度情報をリンクするDPペアの形成について検討する。
本稿では,画像の深さを共同で推定し,復元するためのエンドツーエンドDDDNet(DPベースのDepth and De Network)を提案する。
論文 参考訳(メタデータ) (2020-12-01T06:53:57Z) - Deep Q-Network Based Multi-agent Reinforcement Learning with Binary
Action Agents [1.8782750537161614]
強化学習(RL)のためのディープQネットワーク(DQN)ベースのマルチエージェントシステム(MAS)は、エージェントが学習し通信しなければならない様々なスキームを使用する。
共有状態と報酬を用いたRLのための単純だが効率的なDQNベースのMASを提案する。
このアプローチの利点は、従来のDQNベースのアプローチと比較して、全体的な単純さ、より高速な収束、より良いパフォーマンスである。
論文 参考訳(メタデータ) (2020-08-06T15:16:05Z) - Learn to Interpret Atari Agents [106.21468537372995]
リージョン・センシティブ・レインボー(Rerea-sensitive Rainbow、RS-Rainbow)は、Qネットワークの強力なエージェントであるレインボーをベースとした、エンドツーエンドのトレーニング可能なネットワークである。
提案するエージェントは地域感応性レインボー (RS-Rainbow) と名付けられ, 強力なQネットワークエージェントであるレインボーをベースとしたエンド・ツー・エンドのトレーニング可能なネットワークである。
論文 参考訳(メタデータ) (2018-12-29T03:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。