論文の概要: Playing Atari Space Invaders with Sparse Cosine Optimized Policy Evolution
- arxiv url: http://arxiv.org/abs/2508.08526v1
- Date: Mon, 11 Aug 2025 23:44:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.25596
- Title: Playing Atari Space Invaders with Sparse Cosine Optimized Policy Evolution
- Title(参考訳): スパースコサイン最適化政策進化を用いたアタリ空間侵入機
- Authors: Jim O'Connor, Jay B. Nash, Derin Gezgin, Gary B. Parker,
- Abstract要約: 元の空間の有意義な表現を維持しながら、入力空間のサイズを小さくする方法を示す。
本研究では,AtariゲームスペースインベーダーのポリシーとしてのSCOPEの有効性を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evolutionary approaches have previously been shown to be effective learning methods for a diverse set of domains. However, the domain of game-playing poses a particular challenge for evolutionary methods due to the inherently large state space of video games. As the size of the input state expands, the size of the policy must also increase in order to effectively learn the temporal patterns in the game space. Consequently, a larger policy must contain more trainable parameters, exponentially increasing the size of the search space. Any increase in search space is highly problematic for evolutionary methods, as increasing the number of trainable parameters is inversely correlated with convergence speed. To reduce the size of the input space while maintaining a meaningful representation of the original space, we introduce Sparse Cosine Optimized Policy Evolution (SCOPE). SCOPE utilizes the Discrete Cosine Transform (DCT) as a pseudo attention mechanism, transforming an input state into a coefficient matrix. By truncating and applying sparsification to this matrix, we reduce the dimensionality of the input space while retaining the highest energy features of the original input. We demonstrate the effectiveness of SCOPE as the policy for the Atari game Space Invaders. In this task, SCOPE with CMA-ES outperforms evolutionary methods that consider an unmodified input state, such as OpenAI-ES and HyperNEAT. SCOPE also outperforms simple reinforcement learning methods, such as DQN and A3C. SCOPE achieves this result through reducing the input size by 53% from 33,600 to 15,625 then using a bilinear affine mapping of sparse DCT coefficients to policy actions learned by the CMA-ES algorithm.
- Abstract(参考訳): 進化的アプローチは、これまで様々な領域に対して効果的な学習方法であることが示されている。
しかし、ゲームプレイングの領域は、本質的に大きな状態空間を持つビデオゲームの進化的手法に特に挑戦する。
入力状態のサイズが大きくなるにつれて、ゲーム空間における時間的パターンを効果的に学習するために、ポリシーのサイズも大きくなる必要がある。
その結果、より大きなポリシーはより訓練可能なパラメータを含み、探索空間のサイズを指数関数的に増加させる必要がある。
学習可能なパラメータの数が増加することは収束速度と逆相関するため、進化的手法では探索空間の増大は非常に問題となる。
元の空間の有意義な表現を維持しつつ、入力空間のサイズを小さくするため、スパースコサイン最適化政策進化(SCOPE)を導入する。
SCOPEは離散コサイン変換(DCT)を疑似注意機構として利用し、入力状態を係数行列に変換する。
この行列にスペーシフィケーションを適用することにより、元の入力の最高エネルギー特性を維持しつつ、入力空間の次元性を減少させる。
本研究では,AtariゲームスペースインベーダーのポリシーとしてのSCOPEの有効性を示す。
このタスクでは、OpenAI-ESやHyperNEATのような未修正入力状態を考える進化的手法よりもSCOPEの方が優れている。
SCOPEはまた、DQNやA3Cといった単純な強化学習手法よりも優れている。
SCOPEは入力サイズを33,600から15,625に53%削減し、CMA-ESアルゴリズムで学習した政策行動に対するスパースDCT係数の双線形アフィンマッピングを使用する。
関連論文リスト
- SCOPE for Hexapod Gait Generation [0.0]
進化的手法は、これまでヘキサポッドロボットの歩行に効果的な学習方法であることが示されている。
Sparse Cosine Optimized Policy Evolution (SCOPE)を導入し,入力行列の特徴係数から直接学習する。
SCOPEは、進化したコントローラに入力のサイズを著しく圧縮することができ、統計的に有意な効果をもたらす。
論文 参考訳(メタデータ) (2025-07-17T21:15:48Z) - Unified Gradient-Based Machine Unlearning with Remain Geometry Enhancement [29.675650285351768]
深層ニューラルネットワークのプライバシーと信頼性を高めるために、機械学習(MU)が登場した。
近似MUは大規模モデルの実用的手法である。
本稿では,最新の学習方向を暗黙的に近似する高速スローパラメータ更新手法を提案する。
論文 参考訳(メタデータ) (2024-09-29T15:17:33Z) - Sparsifying dimensionality reduction of PDE solution data with Bregman learning [1.2016264781280588]
本稿では,エンコーダ・デコーダネットワークにおいて,パラメータ数を効果的に削減し,潜在空間を圧縮する多段階アルゴリズムを提案する。
従来のAdamのようなトレーニング手法と比較して、提案手法はパラメータが30%少なく、潜在空間が著しく小さいため、同様の精度が得られる。
論文 参考訳(メタデータ) (2024-06-18T14:45:30Z) - Dynamic Kernel-Based Adaptive Spatial Aggregation for Learned Image
Compression [63.56922682378755]
本稿では,空間アグリゲーション機能の拡張に焦点をあて,動的カーネルベースの変換符号化を提案する。
提案したアダプティブアグリゲーションはカーネルオフセットを生成し、コンテント条件付き範囲の有効な情報をキャプチャして変換を支援する。
実験により,本手法は,最先端の学習手法と比較して,3つのベンチマークにおいて高い速度歪み性能が得られることを示した。
論文 参考訳(メタデータ) (2023-08-17T01:34:51Z) - DBA: Efficient Transformer with Dynamic Bilinear Low-Rank Attention [53.02648818164273]
動的双線形低ランク注意(DBA)という,効率的かつ効果的な注意機構を提案する。
DBAは入力感度の動的射影行列によってシーケンス長を圧縮し、線形時間と空間の複雑さを実現する。
様々なシーケンス長条件のタスクに対する実験は、DBAが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2022-11-24T03:06:36Z) - Adaptive Discretization using Voronoi Trees for Continuous-Action POMDPs [7.713622698801596]
我々は,Voronoi Trees (ADVT) を用いた適応離散化(Adaptive Discretization)と呼ばれる新しいサンプリングベースのオンラインPOMDPソルバを提案する。
ADVTはモンテカルロ木探索とアクション空間の適応的な離散化と楽観的な最適化を併用する。
4種類のベンチマーク問題のシミュレーション実験により、ADVTは高次元連続行動空間よりも優れ、スケールがかなり優れていることが示されている。
論文 参考訳(メタデータ) (2022-09-13T05:04:49Z) - Unsupervised domain adaptation via coarse-to-fine feature alignment
method using contrastive learning [3.766510519275168]
CFContraと呼ばれるコントラスト学習を用いた粗大な特徴アライメント手法を提案する。
これは、粗い特徴のアライメントやクラス的な特徴のアライメントだけに近づきます。
特に,セマンティクスセグメンテーションに対比的損失を適用する場合の過大なメモリ占有を防止するために,メモリバンクを構築し更新する新しい方法を提案する。
論文 参考訳(メタデータ) (2021-03-23T08:12:28Z) - Revisiting Dynamic Convolution via Matrix Decomposition [81.89967403872147]
チャネル群に対する動的注意を置き換える動的チャネル融合を提案する。
本手法は訓練が容易で,精度を犠牲にすることなくパラメータを著しく削減する。
論文 参考訳(メタデータ) (2021-03-15T23:03:18Z) - Regressive Domain Adaptation for Unsupervised Keypoint Detection [67.2950306888855]
ドメイン適応(DA)は、ラベル付きソースドメインからラベル付きターゲットドメインに知識を転送することを目的とする。
本稿では,教師なしキーポイント検出のためのレグレッシブドメイン適応(RegDA)法を提案する。
提案手法は,異なるデータセット上のPCKにおいて,8%から11%の大幅な改善をもたらす。
論文 参考訳(メタデータ) (2021-03-10T16:45:22Z) - Inception Convolution with Efficient Dilation Search [121.41030859447487]
拡散畳み込みは、効果的な受容場を制御し、オブジェクトの大規模な分散を処理するための標準的な畳み込みニューラルネットワークの重要な変異体である。
そこで我々は,異なる軸,チャネル,層間の独立な拡散を有する拡張畳み込みの新たな変異体,すなわち開始(拡張)畳み込みを提案する。
本稿では,データに複雑なインセプション・コンボリューションを適合させる実用的な手法を探索し,統計的最適化に基づく簡易かつ効果的な拡張探索アルゴリズム(EDO)を開発した。
論文 参考訳(メタデータ) (2020-12-25T14:58:35Z) - DyCo3D: Robust Instance Segmentation of 3D Point Clouds through Dynamic
Convolution [136.7261709896713]
本稿では,インスタンスの性質に応じて適切な畳み込みカーネルを生成するデータ駆動型アプローチを提案する。
提案手法はScanetNetV2とS3DISの両方で有望な結果が得られる。
また、現在の最先端よりも推論速度を25%以上向上させる。
論文 参考訳(メタデータ) (2020-11-26T14:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。